In [91]:
%matplotlib inline
%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [92]:
import os
import pickle
import subprocess
from tqdm import tqdm
from utils_text import (timestamp_to_sec, sec_to_timestamps, create_sentences_from_words, squash_timestamps)

In [93]:
class VideoCutter:
    def __init__(self, sentences_list, video_path, transcription_path, save_path = 'result'):
        self.video_path = video_path
        self.sentences_list = sentences_list
        
        with open(transcription_path, 'rb') as f:
            self.transcription_results = pickle.load(f)
            
        self.tmp_folder = save_path

        
    def cut_one_video(self, video, start, end, output_name):

        cmd = f"ffmpeg -y -ss {start} -i '{video}' -threads {os.cpu_count()} -to {end} -map 0 '{output_name}' -loglevel error"

        subprocess.run(cmd, shell=True)


    def concat_videos(self, filename, output_name):

        cmd = f"ffmpeg -y -f concat -safe 0 -threads {os.cpu_count()} -i '{filename}' -c copy '{output_name}' -loglevel error"

        subprocess.run(cmd, shell=True)


    def cut_videos(self):
        print ('Cutting videos')
        for num, timestamp in tqdm(enumerate(self.render_times['timestamps'])):
            output_name = num
#             output_name = f"Short {int(self.output_dict['Ranking'][num][0])+1} {self.output_dict['Name'][num]}"
#             output_name = output_name.replace("'", '').replace('"', '').replace(':', '')

            output_name = f"{self.tmp_folder}'/videos/'{output_name}.mp4"

            if len(timestamp)>1:
                concat_list = []
                for count, cut in enumerate(timestamp):
                    try:
                        start = timestamp_to_sec(cut[0])
                        end = timestamp_to_sec(cut[1])
                    except:
                        start = cut[0]
                        end = cut[1]

                    output_name_tmp = f'concat_videos/{num}_{count}.mp4'      
                    concat_list.append(f"file {output_name_tmp}\n")
                    output_name_tmp = f'{self.tmp_folder}/concat_videos/{num}_{count}.mp4'      
                    self.cut_one_video(self.video_path, start, end, output_name_tmp)
                with open(f"{self.tmp_folder}/file.txt", "w") as output:
                    output.writelines(concat_list)
                self.concat_videos(f"{self.tmp_folder}/file.txt", output_name)
            else:
                try:
                    start = timestamp_to_sec(timestamp[0][0])
                    end = timestamp_to_sec(timestamp[0][1])
                except:
                    start = timestamp[0][0]
                    end = timestamp[0][1]
                self.cut_one_video(self.video_path, start, end, output_name)
                
    def process (self):
        
        os.makedirs(f"{self.tmp_folder}", exist_ok=True)
        os.makedirs(f"{self.tmp_folder}/videos", exist_ok=True)
        os.makedirs(f"{self.tmp_folder}/concat_videos", exist_ok=True)
                    
        self.sentence_dict, self.subtitles_dict = create_sentences_from_words(self.transcription_results) 
        self.render_times = {"timestamps": [], "positions": []}

        for highlight in self.sentences_list:
            positions, new_timestamps = squash_timestamps(highlight, self.sentence_dict["timestamps"])
            self.render_times["positions"].append(positions)
            self.render_times["timestamps"].append(new_timestamps)
            
        self.cut_videos()


In [102]:
sentences = [[[0, 1, 2, 3], [6, 7], [9, 10, 11, 12]], [[13, 14, 15], [17, 18]], [19, 20, 21]]

# sentences = [[13,14,15,16]]

In [103]:
transcription_path = "files/transcription.pickle"
video_path = "files/downloaded_video.mp4"
results_path = "files/results.pickle"
with open(results_path, 'rb') as f:
    results = pickle.load(f)

In [104]:
videocutter = VideoCutter(sentences, video_path, transcription_path)

In [105]:
videocutter.process()

TypeError: int() argument must be a string, a bytes-like object or a number, not 'list'

In [30]:
results["Sentences"]

[[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11],
 [71, 72, 73, 74, 75, 76, 77, 78, 79],
 [110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121],
 [142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153],
 [215, 216, 217, 218, 219, 220, 221, 222, 223, 224, 225, 226],
 [246, 247, 248, 249, 250, 251, 252, 253, 254, 255, 256],
 [261, 262, 263, 264, 265, 266],
 [276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286]]

In [12]:
a = [[[0, 1, 2], [5, 6, 7, 8, 9, 10, 11]],
 [71, 72, 73, 74, 75, 76, 77, 78, 79]]


In [13]:
a

[[[0, 1, 2], [5, 6, 7, 8, 9, 10, 11]], [71, 72, 73, 74, 75, 76, 77, 78, 79]]

In [48]:
path = "../bugfix_videos/empty_sentences/transcription (4).pickle"

In [72]:
with open(path, 'rb') as f:
    data = pickle.load(f)

In [73]:
data

{'text': '这未来10年少有的报复性的赚钱风口你想知道吗绝对靠谱一年后你会回来感谢我的我在疫情刚开始的时候曾经预测过疫情不仅不会让资产的价格下调反而会大涨当时悉尼有一个这个大學的教授跑出來跟我打嘴炮我還跟他打過賭如果股價房價不漲我就退網想起來我那個視视频的人可以帮我做个证省得有人说我马后炮我还不断的跟大家预测即使疫情过去了线下生意也会越来越不好过要想办法把生意从线下搬到线上听进去的人这两年都赚了大钱我已经给大家证明了我商业上面判断的能力今天我想用独特的一个视角来跟你说一下未来十年少有的赚钱机会究竟会在哪里周期就是未来的一整年今天的视频我会告诉你在未来的时代里无论你是否有钱有资源都有机会开展自己的生意我将会通过一个神奇的矩阵让你发现属于你的机会我是澳洲Henry带你用商業思維看我們的海外生活讓你在不知不覺中學到一些商業思維自從我2013年開始創業先后开过7家不同的公司后来我进入到了商业咨询领域接触过的在海外创业的小伙伴呢加起来一定超过1000名了我自己看过这么多生意我得出来一个总结就是有一些看起来不错很赚钱的生意但是它并不适合我们所有人比如说你看今天什么新能源还有数字化什么云技术这些技术一定有前途但是普通人无法进入人人都知道今天是AI的一个风口前段时间这个华人小伙Alex Wang还凭借他的这个人工智能的新生意居然晋升成为了福布斯史上最年轻的创业者但是你即使让我时光倒流回到Alex王创业的那个点我没有他那个技术没有他背后的资本我也做不出来他这样一家巨型的公司但是当我花了大量的时间看了很多成熟的市场数据以及分析了我接触的这些创业者中最成功的这些商业案例我给大家制作了一个四大商机向线的一个矩阵无论你现在情况如何你都能在这个矩阵的四个象限里面找到属于你自己的最好的生意这张图很简单我们的横轴呢就是你的一个技术水平我们的纵轴呢就是你的资金水平在我们这个象限里面最起始的部分就是呢你既没有资金也没有这个技术而随着这个上限不断的往前推呢你就会发现有一些人呢是有资金但是没技术还有一些人呢是有技术但是手上没钱最后一层就是既有技术又有资金的这种高富帅的领域了我今天会从这个四个不同的情况下都能让你找到可以起飞的机会如果你喜欢我今天的视频的话记得订阅我们的频道另外打开小铃铛这样你就不会错过我们以后其他精彩的视频了我们先从最有趣的一个上线开始聊就是你既没有钱然後又沒有一技之長然後還整天想

In [47]:
data

{'text': ' موسيقى الحمد لله رب العالمين والصلاة والسلام على سيدنا محمد لله رب العالمين والصلاة والسلام على سيدنا محمد وعلى آله وأصحابه وأزواج أمهات المؤمنين زي ما قلنا أن السيدة عائشة رضي الله عنها وارضاها والسيدنا الزبير وسيدنا طلحة ومن معهم كانوا بيسعوا لإيجاد رأي عام في مواجهة الطغمة المتمردة السبائية لقتلة عثمان رضي الله عنه وأرضاه والتي أصبحت لها شوكة لا يستهان بها وكل ده من خلال أنهم عايزين يعرفوا المسلمين بهؤلاء الذين فعلوا طبعا هم خرجوا من المدينة راحوا البصرة الأخبار ما كانتش بتتناقل بهذه السرعة اللي احنا موجودين فيها دلوقتي وبالتالي كان بتحتاج لمصادر ثقة تنقل هذه الاخبار والسيدة عائشة لها مكانتها وسيدنا طلح له مكانه وسيدة زبيد له مكانه فهم يعني قرروا انما يكونوا في هذا المكان حتى يجيشوا الناس على هذا الامر لا بد ان نذكر هنا ان سيدة عيشة لما خرجت خرجت في جمع من الصحابة وأكدت روايات الطبري أن تأييد امهات المؤمنين لها ولمن معها من السعي للاصلاح وكذلك تأييد عدد غير قليل من اهل البصرة له وكان هذا العدد غير قليل مما لا يستهان به يعني وصفهم طلحة والزبير بأنهم خيار أهل البصرة ونجبائه

In [89]:
from utils_text import (timestamp_to_sec, sec_to_timestamps, create_sentences_from_words, squash_timestamps)

In [90]:
create_sentences_from_words(data)

({'sentences': ['这未来10年少有的报复性的赚钱风口你想知道吗绝对靠谱一年后你会回来感谢我的我在疫情刚开始的时候曾经预测过疫情不仅不会让资产的价格下调反而会大涨当时悉尼有一个这个學的教授跑出來跟我打嘴炮我還跟他打過賭如果股價房價不漲',
   '我就退網想起來我那個視频的人可以帮我做个证省得有人说我马后炮我还不断的跟大家预测即使疫情过去了线下生意也会越来越不好过要想办法把生意从线下搬到线上听进去的人这两年都赚了大钱我已经给大家证明了我商业上面判断的能力今天我想',
   '用独特的一个视角来跟你说一下未来十年少有的赚钱机会究竟会在哪里周期就是未来的一整年今天的视频我会告诉你在未来的时代里无论你是否有钱有资源都有机会开展自己的生意我将会通过一个神奇的矩阵让你发现属于你的机会我是澳洲H',
   'en带你用商思維看我們的海外生活讓你在不知不覺中學到一些商業思維自從我2013年開始創業先后开过7家不同的公司后来我进入到了商业咨询领域接触过的在海外创业的小伴呢加起来一定超过1000名了我自己看过这么多生意我得出来一个总结就是有一',
   '些看起来不错很赚钱的生意但是它并不适合我们所有人比如说你看今天什么新能源还有数字化什么云技术这些技术一定有前途但是普通人无法进入人人都知道今天是AI的一个风口前段时间这个华人小伙Alex Wang还凭借他的这个人工智能的新生意居然晋',
   '升成为了福布斯史上最年轻的创业者但是你即使让我时光倒流回到Alex王创业的那个点我没有他那个技术没有他背后的资本我也做不出来他这样一家巨型的公司但是当我花了大量的时间看了很多成熟的市场数据以及分析了我接触的这些创',
   '业者中最成功的这些商业案例我给大家制作了一个四大商机向线的一个矩阵无论你现在情况如何你都能在这个矩阵的四个象限里面找到属于你自己的最好的生意这张图很简单我们的横轴呢就是你的一个技术水平我们的纵轴呢就是你的资金水平在我们',
   '这个象限里面最起始的部分就是呢你既没有资金也没有这个技术而随着这个上限不断的往前推呢你就会发现有一些人呢是有资金但是没技术还有一些人呢是有技术但是手上没钱最后一层就是既有技术又有资金的这种高富帅的领域了我',
   '今天会从这个四个不同的情况下都能让你找到可以起飞的机会如果你喜欢我今天的视频的话记得阅我们的频道另外打开小铃铛这