### Find Word Group Youtube Link

In [1]:
import os
import multiprocessing
#import multiprocessing as mp
from multiprocessing import Process, Manager, Pool, Queue
from itertools import islice
from collections import Counter
import re
import pandas as pd
import numpy as np
import glob
import nltk
from nltk import word_tokenize
from nltk import ngrams
from functools import reduce
from pathlib import Path
import shutil

In [2]:
nprocs = multiprocessing.cpu_count()
print(f"Number of CPU cores: {nprocs}")

Number of CPU cores: 16


In [3]:
# language pair
lang_folder = "Turkish"  # Arabic, English, French, German, Turkish, Spanish, Portuguese, Dutch, Italian ==> target language for learner
#lang_pair = "Intersect"  # Arabic, English, French, German, Turkish, Spanish, Portuguese, Dutch, Italian ==> native language

# adding native word to shared word
word_start = 0  # 0 native word start index
word_end = 20000  # 28 native word end index

# youtube
sample_num = 10  # 7
time_shift = 0.6

In [4]:
def word_group_youtube(df, search_list, target_column, sample_num):
    '''
    word_group_youtube(df_youtube_sentence, search_list, "sentence", 6)\n
    df_youtube_sentence is dataframe and "sentence" is its column for external searching_list
    ''' 
    df_search_result = pd.DataFrame()
    for j in search_list:
        try:
            df_select = df[df[f"{target_column}"].str.contains(fr"(?:\s|^){j}(?:\s|$)", na=False)].sample(sample_num)
            #df_select = df[df[f"{target_column}"].str.contains(fr"(?:\s|^){j}(?:\s|$)", na=True)].tail(sample_num)  # will test
        except:
            df_select = df[df[f"{target_column}"].str.contains(fr"(?:\s|^){j}(?:\s|$)", na=False)].head(sample_num)
        #df_result = df[df[f"{target_column}"].str.contains(fr"(?:\s|^){j}(?:\s|$)", na=True)]  # sentence length part
        #df_result.sort_values(f"{target_column}",key=lambda x:x.str.len(), inplace=True)
        #df_select = df_result.head(sample_num)
        df_select.insert(0,"search_string",j)
        df_search_result = pd.concat([df_search_result,df_select], axis=0)
    df_search_result.reset_index(inplace=True, drop=True)
    
    return df_search_result

In [5]:
def word_group_time_loc(df, search, start_sent, end_sent, sent, sent_video_id):
    '''
    word_group_time_loc(df_search_result, "search_string", "start_time", "end_time", "sentence", "video_id")\n
    df_search_result is dataframe and "search_string", "start_time", "end_time", "sentence", "video_id" are its columns
    '''
    df.reset_index(drop=True, inplace=True)
    word_time_loc_list = []
    for i in range(len(df)):
        word = df.loc[i,f"{search}"]
        start_time = df.loc[i,f"{start_sent}"]
        end_time = df.loc[i,f"{end_sent}"]
        sentence = df.loc[i,f"{sent}"]
        video_id = df.loc[i,f"{sent_video_id}"]
        time_length = end_time-start_time
        sentence_length = len(sentence)
        time_length_ratio = time_length/sentence_length
        loc_list = []
        for j in re.finditer(fr"(?:\s|^){word}(?:\s|$)", sentence, re.IGNORECASE|re.UNICODE):
            loc_list.append(j)
            start = loc_list[0].start()
            end = loc_list[0].end()
            start_loc = start_time+(start*time_length_ratio)
            end_loc = start_time+(end*time_length_ratio)
        word_time_loc_list.append([word,start_loc,end_loc,sentence,video_id])
    df_word_time_loc = pd.DataFrame(word_time_loc_list, columns=[f"{search}",f"{start_sent}",f"{end_sent}",f"{sent}",f"{sent_video_id}"])

    return df_word_time_loc

In [6]:
def word_count_result(df, column_list, set_condition=False): # df is dataframe, column_list is list value
    '''
    word_count_bool(df, column_list): df columns word count for word frequency\n
    df is dataframe, column_list is list value\n
    word_count_bool(df, ["word","twogram"]):
    '''
    list_all = []
    for i in df.loc[:,[x for x in column_list]].columns:
        if set_condition:
            var_list = set(df[f"{i}"].dropna().tolist())
        else:
            var_list = df[f"{i}"].dropna().tolist()
        for j in var_list:
            list_all.append(j)
    text = " ".join(list_all)
    word_list = re.findall(r"\w+",text, re.UNICODE)
    df_word_list = pd.DataFrame(word_list, columns=["word"])
    #df_word_list.rename(columns={0:"word"}, inplace=True)
    df_word_count = pd.DataFrame(df_word_list.value_counts())
    df_word_count.reset_index(inplace=True)
    df_word_count.rename(columns={0:"word_count"}, inplace=True)
    df_word_count.sort_values("word_count", ascending=False, inplace=True)
    df_word_count.reset_index(inplace=True, drop=True)
    
    return  df_word_count

In [7]:
def word_usage_result(word_list, df_target, target_column, target_opt_column, word_usage_min, word_usage_max):
    '''
    word_usage_result(word_list, df_ngram_pair, "threegram", "frequency", 1, 5) \n
    word_list is a list, df_target is a dateframe, target_column is df_target dataframe target column, \n
    target_opt_column is df_target dataframe opt_target column, \n
    word_usage_min and word_usage_max word usage condition.
    '''    
    word_num_dict = {}
    for i in word_list:
        word_num_dict[f"{i}"] = 0
    
    result_list_select = []
    var_list = []
    for i in range(len(df_target)):
        target_value = df_target.loc[i,f"{target_column}"]
        opt_value = df_target.loc[i,f"{target_opt_column}"]
        words = word_tokenize(target_value)   
        temp_list = [word for word in words]
        temp_list = temp_list + var_list
        # word count for max
        dict_list_count = Counter(temp_list)
        count_list = list(dict_list_count.values())
        # word count for min
        count_list2 = list(word_num_dict.values())
    
        if any([True if i>word_usage_max else False for i in count_list]) or not(any([True if j<word_usage_min else False for j in count_list2])):
            pass
        else:
            var_list = temp_list
            result_list_select.append([target_value,opt_value]) 
    
            for item2 in dict_list_count.items(): 
                word_num_dict[item2[0]] = item2[1]        
    df_result = pd.DataFrame(result_list_select, columns=[f"{target_column}",f"{target_opt_column}"])
    df_result.sort_values(by="frequency", ascending=False, inplace=True)
    df_result.reset_index(drop=True, inplace=True)
    
    return df_result

In [8]:
path = f"/media/kurubal/SSD1/Data Scientist/Work/Modern Ways/Project/{lang_folder.capitalize()}/\
Talk Time/Talk Time 5/Result/2-Find Word Group Youtube Link"

Path(path).mkdir(parents=True, exist_ok=True)

In [108]:
## Master File
#path_folder_file = f"/media/kurubal/SSD1/Data Scientist/Work/Modern Ways/Project/{lang_folder.capitalize()}/Talk Time/Talk Time 5/Data/Deployment/Talk Time 5 Master File.xlsx"
#sheet = "Sheet6"  # Sheet1
#file_ext = "Sixgram"

In [10]:
ngram = "Sevengram"
path_folder_file = f"/media/kurubal/SSD1/Data Scientist/Work/Modern Ways/Project/{lang_folder.capitalize()}/Talk Time/Talk Time 5/\
Result/1-Select Twogram Threegram According To Word Usage Limit/{lang_folder.capitalize()}_{ngram}_Selected_With_{word_end}_Word.xlsx"
sheet = "Sheet1"
file_ext = ngram

In [110]:
df_file = pd.read_excel(f"{path_folder_file}", sheet_name=f"{sheet}")
#df_file = pd.read_excel(f"twogram.xlsx")
df_file

Unnamed: 0,sevengram,frequency
0,bir iki üç dört beş altı yedi,1455
1,iki üç dört beş altı yedi sekiz,1080
2,bana söylemek istediğin bir şey var mı,752
3,yedi altı beş dört üç iki bir,596
4,sekiz yedi altı beş dört üç iki,551
...,...,...
195,ben de senin hakkında çok şey duydum,70
196,gibi olmama izin verdiğin için tekrar teşekkür,70
197,daha önce hiç böyle bir şey gördün,70
198,nereye gittiğimiz hakkında bir fikrin var mı,70


In [111]:
search_list = df_file.iloc[:,0].to_list()
len(search_list)

200

In [112]:
#disable_video_id_list = ["H6E6N70jYqI","BoaYsdPtJYA","HUZINsU40Fk","Et3diPcEmfY"]
disable_video_id_list = []

In [113]:
df_youtube_sentence = pd.read_csv(f"/media/kurubal/SSD1/Data Scientist/Work/Modern Ways/Project/Youtube/Result/{lang_folder.capitalize()}/Sentence Clean Merge/Clean_Youtube_Sentence_Merge_Result.csv")
df_youtube_sentence

Unnamed: 0,start_time,end_time,sentence,video_id
0,00:00:00.294,00:00:03.294,bu dizinin betimlemesi staff fi lm tarafından,fI1BI4d5KFU
1,00:00:03.375,00:00:06.375,sesli betimleme derneğine yaptırılmıştır,fI1BI4d5KFU
2,00:00:06.462,00:00:09.462,wwwsebederorg,fI1BI4d5KFU
3,00:00:10.267,00:00:11.394,mumu,fI1BI4d5KFU
4,00:00:11.835,00:00:14.061,bak şu an sinir katsayım hat safhada,fI1BI4d5KFU
...,...,...,...,...
3934202,00:10:00.240,00:10:07.818,videoyu bitirmeden şunu da söylemek isterim ki...,dRssR_apbR0
3934203,00:10:07.994,00:10:13.534,bu nedenle ulaşımda insanların yarısına yakını...,dRssR_apbR0
3934204,00:10:14.745,00:10:17.924,danimarkayla alakalı şimdilik söyleyeceklerim ...,dRssR_apbR0
3934205,00:10:18.047,00:10:22.398,video hoşunuza gittiyse beğenmeyi ve kanalıma ...,dRssR_apbR0


In [114]:
df_youtube_sentence = df_youtube_sentence[~df_youtube_sentence["video_id"].isin(disable_video_id_list)]
df_youtube_sentence

Unnamed: 0,start_time,end_time,sentence,video_id
0,00:00:00.294,00:00:03.294,bu dizinin betimlemesi staff fi lm tarafından,fI1BI4d5KFU
1,00:00:03.375,00:00:06.375,sesli betimleme derneğine yaptırılmıştır,fI1BI4d5KFU
2,00:00:06.462,00:00:09.462,wwwsebederorg,fI1BI4d5KFU
3,00:00:10.267,00:00:11.394,mumu,fI1BI4d5KFU
4,00:00:11.835,00:00:14.061,bak şu an sinir katsayım hat safhada,fI1BI4d5KFU
...,...,...,...,...
3934202,00:10:00.240,00:10:07.818,videoyu bitirmeden şunu da söylemek isterim ki...,dRssR_apbR0
3934203,00:10:07.994,00:10:13.534,bu nedenle ulaşımda insanların yarısına yakını...,dRssR_apbR0
3934204,00:10:14.745,00:10:17.924,danimarkayla alakalı şimdilik söyleyeceklerim ...,dRssR_apbR0
3934205,00:10:18.047,00:10:22.398,video hoşunuza gittiyse beğenmeyi ve kanalıma ...,dRssR_apbR0


In [115]:
df_youtube_sentence['start_time'] = pd.to_timedelta(df_youtube_sentence['start_time']) # data type converted timedelta for second 
df_youtube_sentence['end_time'] = pd.to_timedelta(df_youtube_sentence['end_time'])

In [116]:
df_youtube_sentence['start_time'] = df_youtube_sentence['start_time'].apply(lambda x: x.total_seconds()) # convert seconds
df_youtube_sentence['end_time'] = df_youtube_sentence['end_time'].apply(lambda x: x.total_seconds())
df_youtube_sentence

Unnamed: 0,start_time,end_time,sentence,video_id
0,0.294,3.294,bu dizinin betimlemesi staff fi lm tarafından,fI1BI4d5KFU
1,3.375,6.375,sesli betimleme derneğine yaptırılmıştır,fI1BI4d5KFU
2,6.462,9.462,wwwsebederorg,fI1BI4d5KFU
3,10.267,11.394,mumu,fI1BI4d5KFU
4,11.835,14.061,bak şu an sinir katsayım hat safhada,fI1BI4d5KFU
...,...,...,...,...
3934202,600.240,607.818,videoyu bitirmeden şunu da söylemek isterim ki...,dRssR_apbR0
3934203,607.994,613.534,bu nedenle ulaşımda insanların yarısına yakını...,dRssR_apbR0
3934204,614.745,617.924,danimarkayla alakalı şimdilik söyleyeceklerim ...,dRssR_apbR0
3934205,618.047,622.398,video hoşunuza gittiyse beğenmeyi ve kanalıma ...,dRssR_apbR0


In [117]:
df_word_group = word_group_youtube(df_youtube_sentence, search_list, "sentence", sample_num)
df_word_group

Unnamed: 0,search_string,start_time,end_time,sentence,video_id
0,bir iki üç dört beş altı yedi,193.733,198.533,bir iki üç dört beş altı yedi sekiz,cc2r7cRrjng
1,bir iki üç dört beş altı yedi,2039.020,2056.060,ilmek harika bir iki üç dört beş altı yedi sek...,pctw5tglyHU
2,bir iki üç dört beş altı yedi,419.233,425.533,bir iki üç dört beş altı yedi sekiz dokuz on,cc2r7cRrjng
3,bir iki üç dört beş altı yedi,372.100,376.900,bir iki üç dört beş altı yedi sekiz,Y5G56jyilHQ
4,bir iki üç dört beş altı yedi,126.470,145.910,hazırsan var bir iki üç dört beş altı yedi sek...,ct_TTHpoxl0
...,...,...,...,...,...
181,dur dur dur dur dur dur dur,1168.360,1171.570,dur dur dur dur dur dur dur dur dur,JBPSZ9oI9yw
182,bunun nasıl bir his olduğunu biliyor musun,1739.620,1741.900,bunun nasıl bir his olduğunu biliyor musun sen,h_FfxeLeMOc
183,hey hey hey hey hey hey hey,6455.185,6457.661,hey hey hey hey hey hey hey hey hey hey,_IimozO_x50
184,hey hey hey hey hey hey hey,8325.516,8327.495,hey hey hey hey hey hey hey,xEx954Qsjjc


In [118]:
df_word_group_time_loc = word_group_time_loc(df_word_group, "search_string", "start_time", "end_time", "sentence", "video_id")
df_word_group_time_loc

Unnamed: 0,search_string,start_time,end_time,sentence,video_id
0,bir iki üç dört beş altı yedi,193.733000,197.847286,bir iki üç dört beş altı yedi sekiz,cc2r7cRrjng
1,bir iki üç dört beş altı yedi,2041.317528,2047.252809,ilmek harika bir iki üç dört beş altı yedi sek...,pctw5tglyHU
2,bir iki üç dört beş altı yedi,419.233000,423.528455,bir iki üç dört beş altı yedi sekiz dokuz on,cc2r7cRrjng
3,bir iki üç dört beş altı yedi,372.100000,376.214286,bir iki üç dört beş altı yedi sekiz,Y5G56jyilHQ
4,bir iki üç dört beş altı yedi,129.182558,136.190000,hazırsan var bir iki üç dört beş altı yedi sek...,ct_TTHpoxl0
...,...,...,...,...,...
181,dur dur dur dur dur dur dur,1168.360000,1170.928000,dur dur dur dur dur dur dur dur dur,JBPSZ9oI9yw
182,bunun nasıl bir his olduğunu biliyor musun,1739.620000,1741.751304,bunun nasıl bir his olduğunu biliyor musun sen,h_FfxeLeMOc
183,hey hey hey hey hey hey hey,6455.185000,6456.962641,hey hey hey hey hey hey hey hey hey hey,_IimozO_x50
184,hey hey hey hey hey hey hey,8325.516000,8327.495000,hey hey hey hey hey hey hey,xEx954Qsjjc


In [119]:
df_word_group_time_loc.start_time = df_word_group_time_loc.start_time.apply(lambda x: (x-time_shift))
df_word_group_time_loc.end_time = df_word_group_time_loc.end_time.apply(lambda x: (x+time_shift))
df_word_group_time_loc

Unnamed: 0,search_string,start_time,end_time,sentence,video_id
0,bir iki üç dört beş altı yedi,193.133000,198.447286,bir iki üç dört beş altı yedi sekiz,cc2r7cRrjng
1,bir iki üç dört beş altı yedi,2040.717528,2047.852809,ilmek harika bir iki üç dört beş altı yedi sek...,pctw5tglyHU
2,bir iki üç dört beş altı yedi,418.633000,424.128455,bir iki üç dört beş altı yedi sekiz dokuz on,cc2r7cRrjng
3,bir iki üç dört beş altı yedi,371.500000,376.814286,bir iki üç dört beş altı yedi sekiz,Y5G56jyilHQ
4,bir iki üç dört beş altı yedi,128.582558,136.790000,hazırsan var bir iki üç dört beş altı yedi sek...,ct_TTHpoxl0
...,...,...,...,...,...
181,dur dur dur dur dur dur dur,1167.760000,1171.528000,dur dur dur dur dur dur dur dur dur,JBPSZ9oI9yw
182,bunun nasıl bir his olduğunu biliyor musun,1739.020000,1742.351304,bunun nasıl bir his olduğunu biliyor musun sen,h_FfxeLeMOc
183,hey hey hey hey hey hey hey,6454.585000,6457.562641,hey hey hey hey hey hey hey hey hey hey,_IimozO_x50
184,hey hey hey hey hey hey hey,8324.916000,8328.095000,hey hey hey hey hey hey hey,xEx954Qsjjc


In [120]:
df_word_group_time_loc.start_time = df_word_group_time_loc.start_time.apply(lambda x: round(x))
df_word_group_time_loc.end_time = df_word_group_time_loc.end_time.apply(lambda x: round(x))
df_word_group_time_loc 

Unnamed: 0,search_string,start_time,end_time,sentence,video_id
0,bir iki üç dört beş altı yedi,193,198,bir iki üç dört beş altı yedi sekiz,cc2r7cRrjng
1,bir iki üç dört beş altı yedi,2041,2048,ilmek harika bir iki üç dört beş altı yedi sek...,pctw5tglyHU
2,bir iki üç dört beş altı yedi,419,424,bir iki üç dört beş altı yedi sekiz dokuz on,cc2r7cRrjng
3,bir iki üç dört beş altı yedi,372,377,bir iki üç dört beş altı yedi sekiz,Y5G56jyilHQ
4,bir iki üç dört beş altı yedi,129,137,hazırsan var bir iki üç dört beş altı yedi sek...,ct_TTHpoxl0
...,...,...,...,...,...
181,dur dur dur dur dur dur dur,1168,1172,dur dur dur dur dur dur dur dur dur,JBPSZ9oI9yw
182,bunun nasıl bir his olduğunu biliyor musun,1739,1742,bunun nasıl bir his olduğunu biliyor musun sen,h_FfxeLeMOc
183,hey hey hey hey hey hey hey,6455,6458,hey hey hey hey hey hey hey hey hey hey,_IimozO_x50
184,hey hey hey hey hey hey hey,8325,8328,hey hey hey hey hey hey hey,xEx954Qsjjc


In [121]:
df_word_group_time_loc["video_url"] = "https://www.youtube.com/watch?v="+df_word_group_time_loc['video_id'].map(str)+"&t="+df_word_group_time_loc['start_time'].map(str)+"s"
df_word_group_time_loc

Unnamed: 0,search_string,start_time,end_time,sentence,video_id,video_url
0,bir iki üç dört beş altı yedi,193,198,bir iki üç dört beş altı yedi sekiz,cc2r7cRrjng,https://www.youtube.com/watch?v=cc2r7cRrjng&t=...
1,bir iki üç dört beş altı yedi,2041,2048,ilmek harika bir iki üç dört beş altı yedi sek...,pctw5tglyHU,https://www.youtube.com/watch?v=pctw5tglyHU&t=...
2,bir iki üç dört beş altı yedi,419,424,bir iki üç dört beş altı yedi sekiz dokuz on,cc2r7cRrjng,https://www.youtube.com/watch?v=cc2r7cRrjng&t=...
3,bir iki üç dört beş altı yedi,372,377,bir iki üç dört beş altı yedi sekiz,Y5G56jyilHQ,https://www.youtube.com/watch?v=Y5G56jyilHQ&t=...
4,bir iki üç dört beş altı yedi,129,137,hazırsan var bir iki üç dört beş altı yedi sek...,ct_TTHpoxl0,https://www.youtube.com/watch?v=ct_TTHpoxl0&t=...
...,...,...,...,...,...,...
181,dur dur dur dur dur dur dur,1168,1172,dur dur dur dur dur dur dur dur dur,JBPSZ9oI9yw,https://www.youtube.com/watch?v=JBPSZ9oI9yw&t=...
182,bunun nasıl bir his olduğunu biliyor musun,1739,1742,bunun nasıl bir his olduğunu biliyor musun sen,h_FfxeLeMOc,https://www.youtube.com/watch?v=h_FfxeLeMOc&t=...
183,hey hey hey hey hey hey hey,6455,6458,hey hey hey hey hey hey hey hey hey hey,_IimozO_x50,https://www.youtube.com/watch?v=_IimozO_x50&t=...
184,hey hey hey hey hey hey hey,8325,8328,hey hey hey hey hey hey hey,xEx954Qsjjc,https://www.youtube.com/watch?v=xEx954Qsjjc&t=...


In [122]:
word_count_result(df_word_group_time_loc, ["search_string"], set_condition=True)

Unnamed: 0,word,word_count
0,bir,35
1,şey,25
2,var,23
3,mı,11
4,için,11
...,...,...
103,eden,1
104,e,1
105,d,1
106,c,1


In [123]:
df_word_group_time_loc.to_excel(f"{lang_folder.capitalize()}_{file_ext}_With_{word_end}_Word_Youtube_Link.xlsx", index=False)  ########*****

#### Copy Move And Delete

In [12]:
output_file = glob.glob(f"{lang_folder.capitalize()}_*_With_{word_end}_Word_Youtube_Link.xlsx")   ########*****
output_file

['Turkish_Word_Group_With_20000_Word_10_Youtube_0.6s_Timeshift_For_Talk_Time_Result_Fivegram.xlsx',
 'Turkish_Word_Group_With_20000_Word_10_Youtube_0.6s_Timeshift_For_Talk_Time_Result_Sixgram.xlsx',
 'Turkish_Word_Group_With_20000_Word_10_Youtube_0.6s_Timeshift_For_Talk_Time_Result_Fourgram.xlsx',
 'Turkish_Word_Group_With_20000_Word_10_Youtube_0.6s_Timeshift_For_Talk_Time_Result_Threegram.xlsx',
 'Turkish_Word_Group_With_20000_Word_10_Youtube_0.6s_Timeshift_For_Talk_Time_Result_Sevengram.xlsx',
 'Turkish_Word_Group_With_20000_Word_10_Youtube_0.6s_Timeshift_For_Talk_Time_Result_Twogram.xlsx']

In [13]:
for k in output_file:
    source = k # source directory
    destination = path
    shutil.copy2(source, destination)

In [14]:
for i in output_file:
    try:
        os.remove(i)
    except:
        pass