In [20]:
# 한국인 강의음성 전처리 및 csv 파일 생성
# https://aihub.or.kr/aidata/30708/download

# 압축을 풀고 "한국어 강의 음성" 폴더의 이름을 KlecSpeech로 변경한다.
# 추가 히스토리
# 2022-06-15 array 추가
# 2022-06-17 정규식 교체 

In [21]:
import re

def preprocessing(text):
    # 괄호(문자)/(발음) 일 때, 발음만 살리는 코드
    """
    괄호 및 괄호 안에 있는 문장을 모두 벗겨내기
    \([^\)]*\)\/|\(|\)

    조건 1: (문장)/ 을 삭제한다. 
    \([^\)]*\)    (사과)/(배) (1000원)/(천원)
    \/            뒤에 /를 추가하면 뒤에 /가 없는 (배) 와 (천원)은 조건 탈락

    |             조건 1과 조건 2를 OR로 검출

    조건 2 :  ( 과 )를 검출
    \(|\)  
    """  
    re_text = re.sub(r'[+?!]', '', text)
    re_text = re.sub(r'o/', '', re_text)
    re_text = re.sub(r"u/","<unk>",  re_text)
    re_text = re.sub(r"b/","<b>",  re_text)
    re_text = re.sub(r"n/","<n>",  re_text)
    re_text = re.sub(r"l/","<|>",  re_text)
    re_text = re.sub(r'\([^\)]*\)\/|\(|\)', '', re_text)
    re_text = re.sub(r'[/]', '', re_text)

    return re_text

test_text = "la/ l/ 와/ 와// b/ 안녕하세요. n/ na/ l/ (사과)/(배)는 (1000원)/(천원) 입니다?!+ u/ o/"
test_ret = preprocessing(test_text)
print(test_ret)

la <|> 와 와 <b> 안녕하세요. <n> na <|> 배는 천원 입니다 <unk> 


## 오디오 데이터 추가

In [23]:
import json
import os
import glob
import pandas as pd
from tqdm import tqdm
from pathlib import Path
import librosa

In [24]:
text_dict = {'filename':[],'text':[],'array':[]}

path='./dataset/KlecSpeech/Validation/'

# path = Path('./한국어 강의 음성/Validation/')

# wav 파일 기준으로 text 파일이름이 동일, 확장자는 wav, txt로 각각 다름
files = [f for f in glob.glob(path + "**/*.wav", recursive=True)]

# 테스트 코드
# files = files[0:3]
# print(files)
import time

start = time.time()
print("This time is being calculated")

for i in tqdm(range(len(files))):
    txt_file = files[i].replace(".wav", ".txt")
    files[i] = files[i].replace("\\", "/")

#     print(txt_file)
    if not os.path.exists(txt_file):
        print("The file does not exist", txt_file)
    
    with open(txt_file ,'r',encoding='utf8') as f:
        text = f.read()
        
        # 텍스트 전처리
        text = preprocessing(text)

        # 항목들 값을 저장 \
        text_dict['filename'].append(files[i]) # filename
        text_dict['text'].append(text)
        
        # 각 wav파일을 16000으로 나눠서 저장
        array,_ = librosa.load(files[i],sr=16000)
        text_dict['array'].append(list(array))

    if i%500==499:
        n=i//500
        df = pd.DataFrame(text_dict)
        df.to_csv(f'klecspeech_ko_500_{n:03d}.csv',index=False,sep='\t')
        print(f'{n:03d} complete')

        # text_dict을 초기화
        text_dict = {'filename':[],'text':[],'array':[]}
        
# df = pd.DataFrame(text_dict)
# df.head()

print(time.time() - start)

This time is being calculated


  2%|█▏                                                                          | 507/32971 [00:35<8:56:32,  1.01it/s]

000 complete


  3%|██▎                                                                        | 1007/32971 [01:13<8:56:59,  1.01s/it]

001 complete


  5%|███▍                                                                      | 1506/32971 [01:50<11:04:53,  1.27s/it]

002 complete


  6%|████▌                                                                     | 2007/32971 [02:39<10:45:37,  1.25s/it]

003 complete


  8%|█████▋                                                                     | 2506/32971 [03:19<9:27:57,  1.12s/it]

004 complete


  9%|██████▊                                                                    | 3007/32971 [03:56<8:31:33,  1.02s/it]

005 complete


 11%|███████▉                                                                   | 3507/32971 [04:32<8:37:08,  1.05s/it]

006 complete


 12%|████████▉                                                                 | 4006/32971 [05:22<13:04:34,  1.63s/it]

007 complete


 14%|██████████▎                                                                | 4508/32971 [06:00<6:24:48,  1.23it/s]

008 complete


 15%|███████████▍                                                               | 5008/32971 [06:21<3:05:47,  2.51it/s]

009 complete


 17%|████████████▌                                                              | 5507/32971 [06:41<2:46:00,  2.76it/s]

010 complete


 18%|█████████████▋                                                             | 6007/32971 [07:19<7:12:16,  1.04it/s]

011 complete


 20%|██████████████▊                                                            | 6509/32971 [07:49<4:25:11,  1.66it/s]

012 complete


 21%|███████████████▉                                                           | 7007/32971 [08:06<2:17:04,  3.16it/s]

013 complete


 23%|█████████████████                                                          | 7506/32971 [08:44<7:07:13,  1.01s/it]

014 complete


 24%|██████████████████▏                                                        | 8007/32971 [09:16<4:44:02,  1.46it/s]

015 complete


 26%|███████████████████▎                                                       | 8506/32971 [09:44<5:20:20,  1.27it/s]

016 complete


 27%|████████████████████▍                                                      | 9007/32971 [10:23<6:34:37,  1.01it/s]

017 complete


 29%|█████████████████████▋                                                     | 9508/32971 [10:57<4:44:49,  1.37it/s]

018 complete


 30%|██████████████████████▍                                                   | 10005/32971 [11:38<7:44:56,  1.21s/it]

019 complete


 32%|███████████████████████▌                                                  | 10506/32971 [12:22<8:11:08,  1.31s/it]

020 complete


 33%|████████████████████████▋                                                 | 11014/32971 [12:54<3:37:02,  1.69it/s]

021 complete


 35%|█████████████████████████▊                                                | 11508/32971 [13:29<4:36:50,  1.29it/s]

022 complete


 36%|██████████████████████████▉                                               | 12006/32971 [14:05<5:16:38,  1.10it/s]

023 complete


 38%|████████████████████████████                                              | 12506/32971 [14:42<5:42:02,  1.00s/it]

024 complete


 39%|█████████████████████████████▏                                            | 13007/32971 [15:40<9:53:19,  1.78s/it]

025 complete


 41%|██████████████████████████████▎                                           | 13507/32971 [16:26<6:04:56,  1.12s/it]

026 complete


 42%|███████████████████████████████▍                                          | 14007/32971 [17:00<4:32:02,  1.16it/s]

027 complete


 44%|████████████████████████████████▌                                         | 14507/32971 [17:39<4:53:35,  1.05it/s]

028 complete


 46%|█████████████████████████████████▏                                       | 15003/32971 [18:32<11:27:39,  2.30s/it]

029 complete


 47%|██████████████████████████████████▊                                       | 15508/32971 [19:08<3:48:32,  1.27it/s]

030 complete


 49%|███████████████████████████████████▉                                      | 16015/32971 [19:38<2:08:17,  2.20it/s]

031 complete


 50%|█████████████████████████████████████                                     | 16506/32971 [20:08<3:23:25,  1.35it/s]

032 complete


 52%|██████████████████████████████████████▏                                   | 17006/32971 [20:38<3:21:49,  1.32it/s]

033 complete


 53%|███████████████████████████████████████▎                                  | 17507/32971 [21:09<3:06:25,  1.38it/s]

034 complete


 55%|████████████████████████████████████████▍                                 | 18006/32971 [21:36<2:59:53,  1.39it/s]

035 complete


 56%|█████████████████████████████████████████▌                                | 18514/32971 [22:08<2:15:54,  1.77it/s]

036 complete


 58%|██████████████████████████████████████████▋                               | 19006/32971 [22:47<4:57:22,  1.28s/it]

037 complete


 59%|███████████████████████████████████████████▊                              | 19506/32971 [23:33<5:10:21,  1.38s/it]

038 complete


 61%|████████████████████████████████████████████▉                             | 20006/32971 [24:19<5:27:02,  1.51s/it]

039 complete


 62%|██████████████████████████████████████████████                            | 20507/32971 [24:52<2:31:28,  1.37it/s]

040 complete


 64%|███████████████████████████████████████████████▏                          | 21014/32971 [25:21<1:31:59,  2.17it/s]

041 complete


 65%|████████████████████████████████████████████████▎                         | 21514/32971 [25:49<1:31:29,  2.09it/s]

042 complete


 67%|█████████████████████████████████████████████████▍                        | 22007/32971 [26:16<1:50:14,  1.66it/s]

043 complete


 68%|███████████████████████████████████████████████████▉                        | 22517/32971 [26:41<58:16,  2.99it/s]

044 complete


 70%|███████████████████████████████████████████████████▋                      | 23007/32971 [27:08<1:39:32,  1.67it/s]

045 complete


 71%|████████████████████████████████████████████████████▊                     | 23507/32971 [27:37<1:51:46,  1.41it/s]

046 complete


 73%|█████████████████████████████████████████████████████▉                    | 24008/32971 [28:08<1:34:47,  1.58it/s]

047 complete


 74%|███████████████████████████████████████████████████████                   | 24507/32971 [28:41<1:42:51,  1.37it/s]

048 complete


 76%|████████████████████████████████████████████████████████                  | 25005/32971 [29:21<2:49:20,  1.28s/it]

049 complete


 77%|█████████████████████████████████████████████████████████▏                | 25506/32971 [30:04<2:42:08,  1.30s/it]

050 complete


 79%|██████████████████████████████████████████████████████████▎               | 26007/32971 [30:44<2:20:47,  1.21s/it]

051 complete


 80%|███████████████████████████████████████████████████████████▍              | 26507/32971 [31:19<1:27:14,  1.23it/s]

052 complete


 82%|████████████████████████████████████████████████████████████▌             | 27007/32971 [31:54<1:28:27,  1.12it/s]

053 complete


 83%|█████████████████████████████████████████████████████████████▋            | 27506/32971 [32:29<1:10:00,  1.30it/s]

054 complete


 85%|██████████████████████████████████████████████████████████████▊           | 28006/32971 [33:09<1:37:43,  1.18s/it]

055 complete


 86%|█████████████████████████████████████████████████████████████████▋          | 28508/32971 [33:34<36:26,  2.04it/s]

056 complete


 88%|██████████████████████████████████████████████████████████████████▉         | 29014/32971 [33:51<16:17,  4.05it/s]

057 complete


 90%|████████████████████████████████████████████████████████████████████        | 29517/32971 [34:15<17:30,  3.29it/s]

058 complete


 91%|█████████████████████████████████████████████████████████████████████▏      | 30007/32971 [34:41<31:12,  1.58it/s]

059 complete


 93%|██████████████████████████████████████████████████████████████████████▎     | 30507/32971 [35:07<22:58,  1.79it/s]

060 complete


 94%|███████████████████████████████████████████████████████████████████████▍    | 31008/32971 [35:31<15:06,  2.17it/s]

061 complete


 96%|████████████████████████████████████████████████████████████████████████▋   | 31508/32971 [35:56<12:37,  1.93it/s]

062 complete


 97%|█████████████████████████████████████████████████████████████████████████▊  | 32008/32971 [36:23<08:29,  1.89it/s]

063 complete


 99%|██████████████████████████████████████████████████████████████████████████▉ | 32517/32971 [36:46<02:26,  3.10it/s]

064 complete


100%|████████████████████████████████████████████████████████████████████████████| 32971/32971 [36:53<00:00, 14.90it/s]

2213.407388448715





In [None]:
csv_df = pd.read_csv('klecspeech_ko_000.csv',sep='\t')
csv_df.head()

In [None]:
for i in range(100):
    print(text_dict['src'][i], text_dict['text'][i])

In [None]:
df.to_csv('order_speech_ko.csv')

In [None]:
df['text'].unique()
# df.read_csv('order_speech_ko.csv')
# result = [i for i in my_list if i]

In [None]:
df.info()

In [None]:
df.describe()

## 텍스트 누락 확인

In [None]:
df['text'].min()

In [None]:
df['text_len'] = df['text'].map(len)

df[['text_len']].idxmin()

In [None]:
df[['text_len']].idxmin()

In [None]:
df['text'][22410]

In [None]:
print(df['src'][22410])

In [None]:
# 찾아보면 #NAME이라고 되어 있음.