In [20]:
# 한국인 강의음성 전처리 및 csv 파일 생성
# https://aihub.or.kr/aidata/30708/download

# 압축을 풀고 "한국어 강의 음성" 폴더의 이름을 KlecSpeech로 변경한다.
# 추가 히스토리
# 2022-06-15 array 추가
# 2022-06-17 정규식 교체 

In [4]:
import re

def preprocessing(text):
    # 괄호(문자)/(발음) 일 때, 발음만 살리는 코드
    """
    괄호 및 괄호 안에 있는 문장을 모두 벗겨내기
    \([^\)]*\)\/|\(|\)

    조건 1: (문장)/ 을 삭제한다. 
    \([^\)]*\)    (사과)/(배) (1000원)/(천원)
    \/            뒤에 /를 추가하면 뒤에 /가 없는 (배) 와 (천원)은 조건 탈락

    |             조건 1과 조건 2를 OR로 검출

    조건 2 :  ( 과 )를 검출
    \(|\)  
    """  
    re_text = re.sub(r'[+?!]', '', text)
    re_text = re.sub(r'o/', '', re_text)
    re_text = re.sub(r"u/","<unk>",  re_text)
    re_text = re.sub(r"b/","<b>",  re_text)
    re_text = re.sub(r"n/","<n>",  re_text)
    re_text = re.sub(r"l/","<|>",  re_text)
    re_text = re.sub(r'\([^\)]*\)\/|\(|\)', '', re_text)
    re_text = re.sub(r'[/]', '', re_text)

    return re_text

test_text = "la/ l/ 와/ 와// b/ 안녕하세요. n/ na/ l/ (사과)/(배)는 (1000원)/(천원) 입니다?!+ u/ o/"
test_ret = preprocessing(test_text)
print(test_ret)

la <|> 와 와 <b> 안녕하세요. <n> na <|> 배는 천원 입니다 <unk> 


## 오디오 데이터 추가

In [2]:
import json
import os
import glob
import pandas as pd
from tqdm import tqdm
from pathlib import Path
import librosa

In [6]:
text_dict = {'filename':[],'text':[]}

path='./dataset/KlecSpeech/Validation/'

# path = Path('./한국어 강의 음성/Validation/')

# wav 파일 기준으로 text 파일이름이 동일, 확장자는 wav, txt로 각각 다름
files = [f for f in glob.glob(path + "**/*.wav", recursive=True)]

# 테스트 코드
# files = files[0:3]
# print(files)
import time

start = time.time()
print("This time is being calculated")

for i in tqdm(range(len(files))):
    txt_file = files[i].replace(".wav", ".txt")
    files[i] = files[i].replace("\\", "/")

#     print(txt_file)
    if not os.path.exists(txt_file):
        print("The file does not exist", txt_file)
    
    with open(txt_file ,'r',encoding='utf8') as f:
        text = f.read()
        
        # 텍스트 전처리
        text = preprocessing(text)

        # 항목들 값을 저장 \
        text_dict['filename'].append(files[i]) # filename
        text_dict['text'].append(text)
        
#         # 각 wav파일을 16000으로 나눠서 저장
#         array,_ = librosa.load(files[i],sr=16000)
#         text_dict['array'].append(list(array))

    if i%500==499:
        n=i//500
        df = pd.DataFrame(text_dict)
        df.to_csv(f'klecspeech_ko_500_not_audio_{n:03d}.csv',index=False,sep='\t')
        print(f'{n:03d} complete')

        # text_dict을 초기화
        text_dict = {'filename':[],'text':[]}
        
# df = pd.DataFrame(text_dict)
# df.head()

print(time.time() - start)

This time is being calculated


  3%|██▎                                                                        | 1000/32971 [00:00<00:03, 9023.17it/s]

000 complete
001 complete
002 complete


  6%|████▎                                                                      | 1903/32971 [00:00<00:03, 8731.96it/s]

003 complete
004 complete


  8%|██████▍                                                                     | 2776/32971 [00:02<00:36, 819.05it/s]

005 complete


 10%|███████▌                                                                    | 3268/32971 [00:04<00:55, 533.39it/s]

006 complete


 12%|█████████▎                                                                  | 4037/32971 [00:07<01:20, 361.51it/s]

007 complete


 14%|██████████▍                                                                 | 4543/32971 [00:09<01:43, 274.20it/s]

008 complete


 15%|███████████▌                                                                | 5025/32971 [00:10<01:49, 255.23it/s]

009 complete


 17%|████████████▊                                                               | 5548/32971 [00:12<01:33, 293.49it/s]

010 complete


 18%|█████████████▉                                                              | 6052/32971 [00:14<01:38, 273.44it/s]

011 complete


 20%|███████████████                                                             | 6539/32971 [00:15<01:34, 281.02it/s]

012 complete


 21%|████████████████▏                                                           | 7047/32971 [00:17<01:35, 271.49it/s]

013 complete


 23%|█████████████████▎                                                          | 7526/32971 [00:19<01:33, 271.59it/s]

014 complete


 24%|██████████████████▌                                                         | 8052/32971 [00:21<01:30, 276.78it/s]

015 complete


 26%|███████████████████▋                                                        | 8542/32971 [00:23<01:43, 237.07it/s]

016 complete


 27%|████████████████████▊                                                       | 9021/32971 [00:25<01:42, 233.98it/s]

017 complete


 29%|█████████████████████▉                                                      | 9523/32971 [00:27<01:40, 232.64it/s]

018 complete


 30%|██████████████████████▊                                                    | 10045/32971 [00:29<01:39, 230.29it/s]

019 complete


 32%|███████████████████████▉                                                   | 10549/32971 [00:31<01:29, 249.51it/s]

020 complete


 33%|█████████████████████████                                                  | 11032/32971 [00:33<01:23, 261.38it/s]

021 complete


 35%|██████████████████████████▎                                                | 11554/32971 [00:35<01:22, 259.56it/s]

022 complete


 37%|███████████████████████████▍                                               | 12051/32971 [00:37<01:23, 249.27it/s]

023 complete


 38%|████████████████████████████▌                                              | 12540/32971 [00:39<01:20, 252.31it/s]

024 complete


 40%|█████████████████████████████▋                                             | 13033/32971 [00:41<01:19, 251.47it/s]

025 complete


 41%|██████████████████████████████▊                                            | 13538/32971 [00:43<01:11, 273.13it/s]

026 complete


 43%|███████████████████████████████▉                                           | 14033/32971 [00:45<01:08, 275.36it/s]

027 complete


 44%|█████████████████████████████████                                          | 14533/32971 [00:47<01:12, 254.54it/s]

028 complete


 46%|██████████████████████████████████▏                                        | 15027/32971 [00:49<01:10, 252.76it/s]

029 complete


 47%|███████████████████████████████████▎                                       | 15551/32971 [00:51<01:07, 258.72it/s]

030 complete


 49%|████████████████████████████████████▍                                      | 16035/32971 [00:53<01:11, 236.44it/s]

031 complete


 50%|█████████████████████████████████████▌                                     | 16523/32971 [00:55<01:11, 229.93it/s]

032 complete


 52%|██████████████████████████████████████▊                                    | 17039/32971 [00:57<01:01, 260.53it/s]

033 complete


 53%|███████████████████████████████████████▉                                   | 17538/32971 [00:59<01:03, 243.84it/s]

034 complete


 55%|█████████████████████████████████████████                                  | 18044/32971 [01:01<01:04, 231.21it/s]

035 complete


 56%|██████████████████████████████████████████▏                                | 18544/32971 [01:03<00:58, 245.35it/s]

036 complete


 58%|███████████████████████████████████████████▎                               | 19028/32971 [01:05<00:57, 243.70it/s]

037 complete


 59%|████████████████████████████████████████████▍                              | 19541/32971 [01:07<00:54, 245.29it/s]

038 complete


 61%|█████████████████████████████████████████████▌                             | 20047/32971 [01:09<00:50, 254.74it/s]

039 complete


 62%|██████████████████████████████████████████████▋                            | 20537/32971 [01:11<00:49, 251.95it/s]

040 complete


 64%|███████████████████████████████████████████████▊                           | 21036/32971 [01:13<00:46, 256.94it/s]

041 complete


 65%|████████████████████████████████████████████████▉                          | 21539/32971 [01:15<00:45, 253.68it/s]

042 complete


 67%|██████████████████████████████████████████████████                         | 22030/32971 [01:17<00:42, 256.64it/s]

043 complete


 68%|███████████████████████████████████████████████████▎                       | 22548/32971 [01:19<00:39, 264.75it/s]

044 complete


 70%|████████████████████████████████████████████████████▍                      | 23047/32971 [01:21<00:40, 245.10it/s]

045 complete


 71%|█████████████████████████████████████████████████████▌                     | 23526/32971 [01:23<00:36, 262.15it/s]

046 complete


 73%|██████████████████████████████████████████████████████▋                    | 24047/32971 [01:25<00:33, 269.90it/s]

047 complete


 74%|███████████████████████████████████████████████████████▊                   | 24546/32971 [01:27<00:31, 267.01it/s]

048 complete


 76%|████████████████████████████████████████████████████████▉                  | 25034/32971 [01:29<00:33, 237.65it/s]

049 complete


 77%|██████████████████████████████████████████████████████████                 | 25527/32971 [01:30<00:28, 258.85it/s]

050 complete


 79%|███████████████████████████████████████████████████████████▏               | 26035/32971 [01:32<00:27, 248.01it/s]

051 complete


 80%|████████████████████████████████████████████████████████████▎              | 26528/32971 [01:34<00:25, 256.23it/s]

052 complete


 82%|█████████████████████████████████████████████████████████████▌             | 27046/32971 [01:36<00:25, 236.98it/s]

053 complete


 83%|██████████████████████████████████████████████████████████████▌            | 27526/32971 [01:38<00:22, 243.51it/s]

054 complete


 85%|███████████████████████████████████████████████████████████████▋           | 28023/32971 [01:40<00:19, 257.78it/s]

055 complete


 87%|████████████████████████████████████████████████████████████████▉          | 28534/32971 [01:42<00:17, 257.90it/s]

056 complete


 88%|██████████████████████████████████████████████████████████████████         | 29034/32971 [01:44<00:15, 258.05it/s]

057 complete


 90%|███████████████████████████████████████████████████████████████████▏       | 29551/32971 [01:46<00:13, 258.73it/s]

058 complete


 91%|████████████████████████████████████████████████████████████████████▎      | 30040/32971 [01:48<00:11, 246.82it/s]

059 complete


 93%|█████████████████████████████████████████████████████████████████████▍     | 30546/32971 [01:50<00:09, 245.23it/s]

060 complete


 94%|██████████████████████████████████████████████████████████████████████▌    | 31046/32971 [01:52<00:07, 252.65it/s]

061 complete


 96%|███████████████████████████████████████████████████████████████████████▋   | 31542/32971 [01:54<00:05, 248.33it/s]

062 complete


 97%|████████████████████████████████████████████████████████████████████████▉  | 32040/32971 [01:56<00:03, 249.14it/s]

063 complete


 99%|██████████████████████████████████████████████████████████████████████████ | 32542/32971 [01:58<00:01, 268.22it/s]

064 complete


100%|███████████████████████████████████████████████████████████████████████████| 32971/32971 [02:00<00:00, 274.37it/s]

120.16873145103455





In [9]:
csv_df = pd.read_csv('klecspeech_ko_500_not_audio_000.csv',sep='\t')
csv_df.head()

Unnamed: 0,filename,text
0,./dataset/KlecSpeech/Validation/D01/E01/S00002...,여러분 안녕하세요.
1,./dataset/KlecSpeech/Validation/D01/E01/S00002...,친구들이 독해의 열매를 맺어 독해력이 쑥쑥 자랄 수 있도록 도와주는 혜은 선생님 이...
2,./dataset/KlecSpeech/Validation/D01/E01/S00002...,오늘의 생각 씨앗은요 히읗 비읍 이에요. 선생님은 어렸을 때 이 생각 씨앗을 입고 ...
3,./dataset/KlecSpeech/Validation/D01/E01/S00002...,색동저고리 함께 읽어보도록 하겠습니다.
4,./dataset/KlecSpeech/Validation/D01/E01/S00002...,와 엄마 너무 예뻐요.


In [None]:
for i in range(100):
    print(text_dict['src'][i], text_dict['text'][i])

In [None]:
df.to_csv('order_speech_ko.csv')

In [None]:
df['text'].unique()
# df.read_csv('order_speech_ko.csv')
# result = [i for i in my_list if i]

In [None]:
df.info()

In [None]:
df.describe()

## 텍스트 누락 확인

In [10]:
df['text'].min()

'<n> 과 우리의 인간 다운 삶을 보장하는 그런데 과학이 쓰여 질 수 있도록 우리의 과학 기술을 발전 시켜나가는 그런 다짐과 그런 말씀 드리면서 오늘 강의를 마치도록 하겠습니다. 감사합니다.'

In [11]:
df['text_len'] = df['text'].map(len)

df[['text_len']].idxmin()

text_len    328
dtype: int64

In [12]:
df[['text_len']].idxmin()

text_len    328
dtype: int64

In [15]:
df['text'][22410]

'이 근업의,'

In [None]:
print(df['src'][22410])

In [None]:
# 찾아보면 #NAME이라고 되어 있음.