# Transcribe

## 1. Package 설치

---------------------------------------

In [None]:
%load_ext autoreload
%autoreload 2

# External Dependencies:
import time
import boto3
import json
import pandas as pd
import util.xer_py3 as xer
import IPython.display as ipd

transcribe = boto3.client('transcribe')
s3 = boto3.resource('s3')

## 2. 환경 설정

---------------------------------------

In [None]:
## 실험
job_name = "XXXXXXX"  ## Job 이름

bucket_name ='transcribe-comprehend-demo-test-XXX'  ## CloudFormation의 ouput에서 나온 S3Bucket
prefix = 'XXXXXXX' ## S3 bucket 내 음성파일을 upload 한 폴더 명
media_filename = 'XXXXXXX.wav'  ##  wav | flac | mp3 | mp4 

MediaFileUri = "s3://{}/{}/{}".format(bucket_name, prefix, media_filename)
OutputBucketName = bucket_name
MediaFormat = media_filename.split('.')[1]

%store bucket_name

## 3. Transcribe 시작

---------------------------------------

 - **MediaFileUri** : S3 내 미디어 파일 위치
 - **MediaSampleRateHertz** : 입력 파일 RateHertz 설정, 미설정 시 자동 인식
 - **MediaFormat** : 'mp3'|'mp4'|'wav'|'flac'
 - **LanguageCode** : ko-KR 언어 설정
 - **OutputBucketName** : output 버킷 설정, 미설정 시 Service managed S3 bucket에 저장 90일 내 삭제 (job 이 삭제 되기 때문임)
 - **Settings** :
    > **VocabularyName** : 고객 단어 사전 (사전 등록 필요)   
    > **VocabularyFilterName** : 삭제가 필요한 단어 (사전 등록 필요)   
    > **VocabularyFilterMethod** : remove (삭제) | mask (```***``` 로 대체)   
    > **ShowAlternatives** : 대체 단어 추천 유무 (True|False)  
    > **MaxAlternatives** : 대체 단어 추천 수 (2~ 10까지 가능)  

    > 하나만 선택 가능
    > 1. 화자 식별
    >     > **ShowSpeakerLabels** : True | False   
    >     > **MaxSpeakerLabels** : 최대 식별 화자 수 ( 2~ 10까지 가능)
    > 2. 채널 식별
    >     > **ChannelIdentification** : True | False  

<img src="./images/transcribe_할당량.png" width="600" height="400">


---------------------------------------


In [None]:
try:
    transcribe.delete_transcription_job(TranscriptionJobName=job_name)
except:
    pass

In [None]:
%%time
transcribe.start_transcription_job(
    TranscriptionJobName=job_name,
    Media={'MediaFileUri': MediaFileUri},
#     MediaSampleRateHertz=44100,
    MediaFormat=MediaFormat,
    LanguageCode='ko-KR', ## en-US, ko-KR
    OutputBucketName=OutputBucketName,
    Settings={
#         'VocabularyName': 'custom_vocabulary', 
#         'ShowSpeakerLabels': True,
#         'MaxSpeakerLabels': 2,
#         'ChannelIdentification': True,
#         'ShowAlternatives': True,
#         'MaxAlternatives': 3,
#         'VocabularyFilterName': 'test-remove-voca',
#         'VocabularyFilterMethod': 'mask'
    },
#     ContentRedaction={
#         'RedactionType': 'PII',
#         'RedactionOutput': 'redacted'|'redacted_and_unredacted'
#     }
)

while True:
    status = transcribe.get_transcription_job(TranscriptionJobName=job_name)
    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

## 4. 결과 확인

---------------------------------------

In [None]:
response = transcribe.get_transcription_job(
    TranscriptionJobName=job_name
)
print(response)

### Output json 파일 정보

In [None]:
res = response['TranscriptionJob']['Transcript']['TranscriptFileUri']

In [None]:
tmp=res.split('/')
bucket = tmp[3]
output_filename = tmp[4]
output_path = './output/' + output_filename
print("bucket : {}, output_filename : {}, output_path : {}".format(bucket, output_filename, output_path))

### From S3 파일 to SageMaker Notebook 복사

In [None]:
s3.Object(bucket, output_filename).download_file(output_path)

In [None]:
with open(output_path, 'rt', encoding='UTF8') as f:
    print(f)
    content = json.load(f)
print(content)

### STT 결과

In [None]:
result = content['results']
res_item = list(result.keys())
transcript = result['transcripts'][0]['transcript']
print(transcript)

### 결과 상세 확인

In [None]:
full_items = []
items =result['items']

for item in items:
    if 'start_time' in item:
        start_time = item['start_time']
        end_time = item['end_time']
        full_items.append([start_time, end_time, item['alternatives'][0]['content'], item['alternatives'][0]['confidence']])
    else:
        full_items.append([end_time,end_time,item['alternatives'][0]['content'],item['alternatives'][0]['confidence']])

df = pd.DataFrame(full_items, columns=['start_time', 'end_time', 'content', 'confidence']) 

## 동일 결과 삭제
df = df.drop_duplicates()
df = df.drop_duplicates(['start_time','content','confidence'], keep='first')

df['start_time'] = df['start_time'].astype('float')
df['end_time'] = df['end_time'].astype('float')

df=df.sort_values(by='start_time')
df

### 화자 결과 확인 (optional)

In [None]:
speaker_flag = 'speaker_labels' in res_item

if speaker_flag:
    speakers = result['speaker_labels']['speakers']
    speaker_seg = content['results']['speaker_labels']['segments']
    speaker_labels = []
    for seg in speaker_seg:
        for seg_item in seg['items']:
            speaker_labels.append([seg_item['start_time'], seg_item['speaker_label'], seg_item['end_time']])

    df_speak_labels = pd.DataFrame(speaker_labels, columns=['start_time','speaker_label','end_time'])
    df_speak_labels['start_time'] = df_speak_labels['start_time'].astype('float')
    df_speak_labels['end_time'] = df_speak_labels['end_time'].astype('float')

In [None]:
if 'segments' in res_item:
    segments= result['segments']

In [None]:
if speaker_flag:
    df_result = pd.merge(df, df_speak_labels, on=['start_time', 'end_time'], how='outer')
    df_result['speaker_label'].fillna("Punc", inplace=True)
else:
    df_result= df
df_result

In [None]:
# out = None
# if speaker_flag:
#     out = df_result[df_result['speaker_label']=='spk_0']
# out

In [None]:
# sentence = ''
# for i in range(0, df_result.shape[0]):
#     tmp = str(df_result.iloc[i][2]) + \
#     '[' + str(df_result.iloc[i][3]) + '] '
#     if speaker_flag:
#         tmp += '[' + str(df_result.iloc[i][4]) + '] '
        
#     sentence += tmp
# print(sentence)

In [None]:
sentence = ''
pre_speaker = ''
for i in range(0, df_result.shape[0]):
    tmp = ''
    if speaker_flag:
        if df_result.iloc[i][4] not in [pre_speaker,'Punc']:
            tmp = '\n' + str(df_result.iloc[i][4]) + ' : '
        tmp += str(df_result.iloc[i][2]) +' '
        if df_result.iloc[i][4] !='Punc':
            pre_speaker = df_result.iloc[i][4]
    sentence += tmp
print(sentence)

In [None]:
print(transcript)
%store transcript

## 5. 결과 확인
-------------------------------

In [None]:
gt ="그녀의 사랑을 얻기 위해 애썼지만 헛수고였다.용돈을 아껴 써라.그는 아내를 많이 아낀다.그 애 전화번호 알아?차에 대해 잘 아세요?거기 도착하면 나한테 알려 줘.그들은 내가 시험에 떨어졌다고 알려 왔다.나는 살아오면서 감기를 앓은 적이 한 번도 없다.사흘 동안 심하게 몸살을 앓았어요.요즘 공부가 안돼요."

In [None]:
transcript

In [None]:
xer.measure(transcript, gt)

## 6. 결과 개선
-------------------------------

 - PCM 16비트로 녹음된 무손실 형식(예: FLAC 또는 WAV)을 사용합니다.
 - 저품질 오디오에는 8000Hz를 사용하고 고품질 오디오에는 16000Hz를 사용합니다.

2가지 방식으로 결과 개선이 가능합니다.
 - Custom vocabulary 생성  
 > - 도메인 특화 단어, 구, 단어 생성 가능  
 > - account 당 100 개 vocabulary 까지 가능  
 > - 사이즈는 최대 50KB 가능
 > - 단어 리스트로 추가하거나, 테이블 방식으로 추가 가능
 
 - Vocabulary filtering 생성  
 > - 마스크 또는 제거 방식 둘 중 선택 가능
 > - 사이즈는 최대 50KB 가능  

### Custom vocabulary 생성
--------------------------
각 단어를 한 줄씩 배치하거나 단어나 구절을 쉼표로 서로 분리하여 한 줄에 여러 단어를 배치할 수도 있습니다.
각 항목은 다음과 같이 구성되어야 합니다.
- 특정 단어 또는 구절을 대상으로 사용하기에 가장 적합
- 256자 미만(하이픈 포함)
- 허용되는 문자 집합의 문자만 가능 (한국어 가능)
- 계정당 최대 100개의 어휘 보유 가능
- 사용자 지정 어휘의 크기 한도는 50Kb
> Los-Angeles  
> F.B.I.  
> Etienne  

  > Los-Angeles, F.B.I., Etienne

In [None]:
add_voca = transcribe.create_vocabulary(
    VocabularyName='XXXXXXX', ## Custom Vocabulary 이름 (case-sensitive)
    LanguageCode='ko-KR',  ## 'ko-KR' en-US
    Phrases=[
        '엘레', ## 예시
        'XXX'
    ],
)

### Vocabulary filtering 생성

In [None]:
remove_voca = transcribe.create_vocabulary_filter(
    VocabularyFilterName='XXXXXX', 
    LanguageCode='ko-KR',
    Words=[
        '스포츠',  ## 예시
    ],
#     VocabularyFilterFileUri='string'
)