# Speech to Speech Flow

## Speech to Text
Objectives:
1. Transcribe text　✅
2. Preserve timestamp　✅

In [1]:
from pathlib import Path
import pytube as pt
from openai import OpenAI
import os
from dotenv import load_dotenv

dotenv_path = Path("__file__").resolve().parents[1].parents[0] / '.local.env'
load_dotenv(dotenv_path)

OpenAI.api_key = os.getenv("OPENAI_API_KEY")
data_path = Path("__file__").resolve().parents[1].parents[0] / "local_data"

In [2]:
user_path = os.path.join(data_path, "user_input")
VIDEO_FILE_NAME = "rakugo_v1.mp4"
VIDEO_FILE_PATH = os.path.join(user_path, VIDEO_FILE_NAME)

In [3]:
AUDIO_FILE_PATH = os.path.join(user_path, "rakugo_v1.mp3")

In [4]:
import sys
from moviepy.editor import *

video = VideoFileClip(VIDEO_FILE_PATH) # 2.
audio = video.audio # 3.
audio.write_audiofile(AUDIO_FILE_PATH) # 4.

MoviePy - Writing audio in /Users/howardtangkulung/code/personal_projects/rakugo/local_data/user_input/rakugo_v1.mp3


                                                                        

MoviePy - Done.




In [5]:
# take first 1 minutes of the audio
from pydub import AudioSegment
audio = AudioSegment.from_file(AUDIO_FILE_PATH)
duration = 60 * 1000

audio = audio[:duration]
shortened_audio_file_path = os.path.join(data_path, "rakugo_v1_shortened.mp3")
audio.export(shortened_audio_file_path, format="mp3")

<_io.BufferedRandom name='/Users/howardtangkulung/code/personal_projects/rakugo/local_data/rakugo_v1_shortened.mp3'>

In [6]:
# trim video as well
from moviepy.editor import VideoFileClip
video = VideoFileClip(VIDEO_FILE_PATH)
video = video.subclip(0, int(duration/1000))
shortened_video_file_path = os.path.join(data_path, "rakugo_v1_shortened.mp4")
video.write_videofile(shortened_video_file_path)

Moviepy - Building video /Users/howardtangkulung/code/personal_projects/rakugo/local_data/rakugo_v1_shortened.mp4.
MoviePy - Writing audio in rakugo_v1_shortenedTEMP_MPY_wvf_snd.mp3


                                                                      

MoviePy - Done.
Moviepy - Writing video /Users/howardtangkulung/code/personal_projects/rakugo/local_data/rakugo_v1_shortened.mp4



                                                                 

Moviepy - Done !
Moviepy - video ready /Users/howardtangkulung/code/personal_projects/rakugo/local_data/rakugo_v1_shortened.mp4


In [7]:
client = OpenAI()

shortened_audio_file_path = os.path.join(data_path, "rakugo_v1_shortened.mp3")
audio_file= open(shortened_audio_file_path, "rb")

transcript = client.audio.transcriptions.create(
  file=audio_file,
  model="whisper-1",
  response_format="verbose_json",
  timestamp_granularities=["segment"]
)

In [8]:
print(len(transcript.segments), "segments")
print(transcript.segments[:2])

7 segments
[{'id': 0, 'seek': 0, 'start': 0.0, 'end': 15.800000190734863, 'text': 'me', 'tokens': [50364, 1398, 51154], 'temperature': 0.20000000298023224, 'avg_logprob': -0.6217933297157288, 'compression_ratio': 1.0097087621688843, 'no_speech_prob': 0.2337973415851593}, {'id': 1, 'seek': 0, 'start': 16.0, 'end': 22.920000076293945, 'text': 'a 練習したような小刻みの白書がございます 旬風て市の助と申しましてまぁ', 'tokens': [51164, 64, 220, 47027, 34025, 8533, 17010, 3203, 7322, 45500, 11362, 2972, 13558, 29801, 5142, 43808, 220, 4479, 105, 22713, 2996, 27261, 2972, 37618, 3193, 3526, 111, 45349, 8822, 37566, 51510], 'temperature': 0.20000000298023224, 'avg_logprob': -0.6217933297157288, 'compression_ratio': 1.0097087621688843, 'no_speech_prob': 0.2337973415851593}]


In [9]:
# remove alphanumeric characters with regex
import re

segments = []
for segment in transcript.segments:
    text = re.sub(r'[a-zA-Z0-9🎶]', '', segment["text"]).strip()
    start = segment["start"]
    end = segment["end"]

    if text and (end-start) > 2.5:
        segments.append({
            "text": text,
            "start": start,
            "end": end
        })

for i in range(len(segments[:5])):
    print(segments[i])

{'text': '練習したような小刻みの白書がございます 旬風て市の助と申しましてまぁ', 'start': 16.0, 'end': 22.920000076293945}
{'text': '嘘つきは泥棒の始まりなんと まあねほんと猫立ちの悪い嘘つくよりはちょいと間抜けな泥棒のほうが', 'start': 22.920000076293945, 'end': 30.8799991607666}
{'text': 'かわいいがあるようでございますおしまいしまい こっち来いしまいはいおやぶん何かご用ですかよですかじゃないよね', 'start': 30.8799991607666, 'end': 38.08000183105469}
{'text': 'おめのこと仲間がなぁなんて言ってか知ってんのかねあら見込みがねからさっさと足荒ら して敵に戻したらどうだってみんなのメイドのこと言ってんだよねどうするよ', 'start': 38.08000183105469, 'end': 46.119998931884766}
{'text': '泥棒やめるか足洗うかなんて言ってんすか 自分でもまあ土地ばかり踏んでんなってのはよくわかってんですかね', 'start': 46.560001373291016, 'end': 53.31999969482422}


## Text to text
Objectives
1. Easify the text ✅
2. Try to preserve the length of text ✅

In [10]:
sentences = [segment["text"] for segment in segments]

In [11]:
# join segements in the format of
# 1. segment1
# 2. segment2
# ...
input_text = "\n".join([f"{i+1}. {sentence}" for i, sentence in enumerate(sentences)])
print(input_text)
JLPT_LEVEL = "N4"

1. 練習したような小刻みの白書がございます 旬風って一ノ助と申しましても
2. 嘘つきは泥棒の始まりなんと まあねほんと猫立ちの悪い嘘つくよりはちょいと間抜けな泥棒のほうが
3. かわいいがあるようでございますおしまいしまい こっち来いしまいはい親分なんかご用ですかよですかじゃないよね
4. おめのこと仲間がなぁなんて言ってるか知ってるのかねあら見込みがねからさっさと足 荒らして敵に戻したらどうだってみんな濡れるとのこと言ってんだよねどうするよ
5. 泥棒やめるか足洗うかなんて言ってんすか 自分でもまあ土地ばかり踏んでんなってのはよくわかってるんですかね
6. これから真心に立ち帰った悪事に励みますから 今までより置いちゃってくださいこの通りで言ってること


In [12]:
completion = client.chat.completions.create(
  model="gpt-4",
  messages=[
    {"role": "system", "content": """
    日本の落語の一節と日本語能力試験（JLPT）のレベルが与えられます。\n
    その節を、指定されたJLPTレベルに適した語彙を使って簡単にしてください。\n
    語彙のみを変更してください。文の構造や意味は変更しないでください。\n
     """},
    {"role": "user", "content": f"""
    JLPTレベル: {JLPT_LEVEL}\n
     落語の節:\n
     {input_text}
     """}
  ]
)


In [13]:
completion.choices[0].message

ChatCompletionMessage(content='\n    JLPTレベル: N4\n\n     落語の節:\n\n    1. 練習したような小さなメモがあります。旬風っていう人と言っても\n2. 嘘つきは泥棒の始まりだよね。まあ、ひどい嘘をつくよりは、ちょっと間抜けな泥棒のほうが\n3. 可愛いさがあるんだよね。終わり、終わり、こっちに来て。終わり、はい、お頭さん、何か用がありますか。ありますかじゃないよね\n4. 自分のこと、友達がなぁなんて言ってるか知ってるのかね。あっ、見込みがあるから早く逃げて敵に戻したらどうだってみんなが言ってるんだよね。どうするよ\n5. 泥棒をやめるか、足を洗うかなんて言ってんのか。自分でもたくさん歩いてるってわかってるのかな\n6. これから本心で悪行に取り組みますから、これまで以上に見守ってください。これをよく読んで、私が言ってることを理解してください', role='assistant', function_call=None, tool_calls=None)

In [14]:
completion_output = completion.choices[0].message.content
print(completion_output)


    JLPTレベル: N4

     落語の節:

    1. 練習したような小さなメモがあります。旬風っていう人と言っても
2. 嘘つきは泥棒の始まりだよね。まあ、ひどい嘘をつくよりは、ちょっと間抜けな泥棒のほうが
3. 可愛いさがあるんだよね。終わり、終わり、こっちに来て。終わり、はい、お頭さん、何か用がありますか。ありますかじゃないよね
4. 自分のこと、友達がなぁなんて言ってるか知ってるのかね。あっ、見込みがあるから早く逃げて敵に戻したらどうだってみんなが言ってるんだよね。どうするよ
5. 泥棒をやめるか、足を洗うかなんて言ってんのか。自分でもたくさん歩いてるってわかってるのかな
6. これから本心で悪行に取り組みますから、これまで以上に見守ってください。これをよく読んで、私が言ってることを理解してください


In [15]:
# save the easified text using regex
# "number". "sentence" -> "sentence"
import re

easified_sentences = re.findall(r"\d+\. (.+)", completion_output)
print(len(easified_sentences), " sentences found from ", len(segments), " sentences")
print(easified_sentences)

6  sentences found from  6  sentences
['練習したような小さなメモがあります。旬風っていう人と言っても', '嘘つきは泥棒の始まりだよね。まあ、ひどい嘘をつくよりは、ちょっと間抜けな泥棒のほうが', '可愛いさがあるんだよね。終わり、終わり、こっちに来て。終わり、はい、お頭さん、何か用がありますか。ありますかじゃないよね', '自分のこと、友達がなぁなんて言ってるか知ってるのかね。あっ、見込みがあるから早く逃げて敵に戻したらどうだってみんなが言ってるんだよね。どうするよ', '泥棒をやめるか、足を洗うかなんて言ってんのか。自分でもたくさん歩いてるってわかってるのかな', 'これから本心で悪行に取り組みますから、これまで以上に見守ってください。これをよく読んで、私が言ってることを理解してください']


## Text to speech
Objectives
1. Synchronise with timestamps ✅
2. Use same voice ✅

In [16]:
ELEVENLABS_API_KEY = os.getenv("ELEVENLABS_API_KEY")

In [17]:
audio_file_paths = [str(shortened_audio_file_path)]

In [18]:
from elevenlabs import clone, generate, play

voice = clone(
    api_key=ELEVENLABS_API_KEY,
    name="rakugo_v1",
    files=audio_file_paths,
)

In [19]:
audios = []
for sentence in easified_sentences:
    audio = generate(
        api_key=ELEVENLABS_API_KEY,
        text=sentence,
        voice=voice,
        model="eleven_multilingual_v2",
        output_format="mp3_44100_128"
    )
    audios.append(audio)

In [20]:
# play(audios[0])

In [21]:
temp_res_file_path = os.path.join(data_path, "temp_results")
os.makedirs(temp_res_file_path, exist_ok=True)

In [22]:
# save generated audio to mp3
for i, audio in enumerate(audios):
    audio_file_path = os.path.join(temp_res_file_path, f"rakugo_v1_{i}.mp3")
    with open(audio_file_path, "wb") as f:
        f.write(audio)
    print(f"audio file saved to {audio_file_path}")

audio file saved to /Users/howardtangkulung/code/personal_projects/rakugo/local_data/temp_results/rakugo_v1_0.mp3
audio file saved to /Users/howardtangkulung/code/personal_projects/rakugo/local_data/temp_results/rakugo_v1_1.mp3
audio file saved to /Users/howardtangkulung/code/personal_projects/rakugo/local_data/temp_results/rakugo_v1_2.mp3
audio file saved to /Users/howardtangkulung/code/personal_projects/rakugo/local_data/temp_results/rakugo_v1_3.mp3
audio file saved to /Users/howardtangkulung/code/personal_projects/rakugo/local_data/temp_results/rakugo_v1_4.mp3
audio file saved to /Users/howardtangkulung/code/personal_projects/rakugo/local_data/temp_results/rakugo_v1_5.mp3


In [23]:
# speed up audio according to segments start and end

from pydub import AudioSegment
from pydub.effects import speedup

for i, segment in enumerate(segments):
    audio_file_path = os.path.join(temp_res_file_path, f"rakugo_v1_{i}.mp3")
    audio = AudioSegment.from_file(audio_file_path, format="mp3")
    audio_dur = len(audio) / 1000
    speed = audio_dur / (segment['end'] - segment['start'])
    print("original audio duration", audio_dur, "segment duration", segment['end'] - segment['start'], "speed", speed)
    # round speed to nearest from 1, 1.25, 1.5
    speed = round(speed*4) / 4
    if speed <= 1:
        speed = 1
        speeded_audio = audio
    else:
        speeded_audio = speedup(audio, speed)
    print(f"speeded audio with speed {speed}")
    speeded_audio.export(os.path.join(temp_res_file_path, f"rakugo_v1_{i}_speeded.mp3"), format="mp3")
    print(f"audio file saved")

original audio duration 4.023 segment duration 6.879999160766602 speed 0.5847384434203533
speeded audio with speed 1
audio file saved
original audio duration 6.296 segment duration 7.960000991821289 speed 0.7909546753158687
speeded audio with speed 1
audio file saved
original audio duration 9.378 segment duration 7.19999885559082 speed 1.3025002070268323
speeded audio with speed 1.25
audio file saved
original audio duration 10.162 segment duration 8.040000915527344 speed 1.2639302043330023
speeded audio with speed 1.25
audio file saved
original audio duration 5.851 segment duration 6.8000030517578125 speed 0.8604407903151612
speeded audio with speed 1
audio file saved
original audio duration 7.706 segment duration 8.680000305175781 speed 0.8877879872198857
speeded audio with speed 1
audio file saved


In [24]:
# merge speeded audio according to segments start and end
# use the first segment start time as the start time of the merged audio
# fill first silence with original audio
for i, segment in enumerate(segments):
    audio_file_path = os.path.join(temp_res_file_path, f"rakugo_v1_{i}_speeded.mp3")
    original_audio_file_path = os.path.join(data_path, "rakugo_v1_shortened.mp3")
    original_audio = AudioSegment.from_file(original_audio_file_path, format="mp3")
    audio = AudioSegment.from_file(audio_file_path, format="mp3")
    current_time = segment['start'] * 1000
    print("current_time", current_time, "segment start", segment['start'], "segment end", segment['end'])
    if i == 0:
        fill_dur = current_time
        fill = original_audio[:fill_dur]
        merged_audio = fill + audio
    else:
        silence_dur = segment['start'] * 1000 - current_time
        silence = AudioSegment.silent(duration=silence_dur)
        merged_audio = merged_audio + silence + audio
    current_time = len(merged_audio)

merged_audio.export(os.path.join(temp_res_file_path, f"rakugo_v1_merged.mp3"), format="mp3")

current_time 16079.999923706055 segment start 16.079999923706055 segment end 22.959999084472656
current_time 22959.999084472656 segment start 22.959999084472656 segment end 30.920000076293945
current_time 30920.000076293945 segment start 30.920000076293945 segment end 38.119998931884766
current_time 38119.998931884766 segment start 38.119998931884766 segment end 46.15999984741211
current_time 46599.998474121094 segment start 46.599998474121094 segment end 53.400001525878906
current_time 53400.001525878906 segment start 53.400001525878906 segment end 62.08000183105469


<_io.BufferedRandom name='/Users/howardtangkulung/code/personal_projects/rakugo/local_data/temp_results/rakugo_v1_merged.mp3'>

In [25]:
import moviepy.editor as mp

final_res_file_path = os.path.join(data_path, "final_results")

audio = mp.AudioFileClip(os.path.join(temp_res_file_path, "rakugo_v1_merged.mp3"))
video1 = mp.VideoFileClip(shortened_video_file_path)
final = video1.set_audio(audio)

final.write_videofile(os.path.join(final_res_file_path, "rakugo_v1_final.mp4"))

Moviepy - Building video /Users/howardtangkulung/code/personal_projects/rakugo/local_data/final_results/rakugo_v1_final.mp4.
MoviePy - Writing audio in rakugo_v1_finalTEMP_MPY_wvf_snd.mp3


                                                                      

MoviePy - Done.
Moviepy - Writing video /Users/howardtangkulung/code/personal_projects/rakugo/local_data/final_results/rakugo_v1_final.mp4



                                                                 

Moviepy - Done !
Moviepy - video ready /Users/howardtangkulung/code/personal_projects/rakugo/local_data/final_results/rakugo_v1_final.mp4


In [26]:
import glob

files = glob.glob(os.path.join(temp_res_file_path, "*.mp3"))
for f in files:
    os.remove(f)

files = glob.glob(os.path.join(data_path, "*.mp*"))
for f in files:
    os.remove(f)