## Audio Feature Extraction

**Packages**

In [71]:
import h5py
import os
os.environ['KMP_DUPLICATE_LIB_OK'] = 'True'
from tqdm import tqdm
import os.path as osp
import torch
import numpy as np
from moviepy.video.io.VideoFileClip import VideoFileClip

### Loading VGGish model

In [37]:
import torch
vggish = torch.hub.load('harritaylor/torchvggish', 'vggish')
vggish.eval()


Using cache found in C:\Users\Msc 2/.cache\torch\hub\harritaylor_torchvggish_master


VGGish(
  (features): Sequential(
    (0): Conv2d(1, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU(inplace=True)
    (2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (3): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (4): ReLU(inplace=True)
    (5): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (6): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (7): ReLU(inplace=True)
    (8): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (9): ReLU(inplace=True)
    (10): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (11): Conv2d(256, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (12): ReLU(inplace=True)
    (13): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (14): ReLU(inplace=True)
    (15): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False

### Feature Extracter

In [102]:
def get_segFeats(path2vid, picks):
    audio = VideoFileClip(path2vid).audio
    dur=audio.duration
    Audio_Feats=[]
    
    pbar = tqdm(total=len(picks), position=0, leave=True)
    
    first_sarr = audio.cutout(0.5,dur).to_soundarray(fps=16000)
    pad_amt = 16000-first_sarr.shape[0]
    first_sarr= np.pad(first_sarr, ((pad_amt,0),(0,0)), 'constant')
    feat = vggish.forward(first_sarr, fs=16000).detach().numpy()
    Audio_Feats.append(feat)
    pbar.update(1)
    
    for pick in picks[1:]:
        i=pick/30
        audio_clip = audio.cutout(0,i-0.5).cutout(min(i+0.5,dur),dur)
        audio_arr = audio_clip.to_soundarray(fps=16000)
        pad_amt = 16000-audio_arr.shape[0]
        if pad_amt>0:
            audio_arr= np.pad(audio_arr, ((0, pad_amt),(0,0)), 'constant')
        
        feat = vggish.forward(audio_arr, fs=16000).detach().numpy()
        Audio_Feats.append(feat)
        pbar.update(1)
        
    return Audio_Feats
        

In [106]:
def extract_audio_feats(args):
    with h5py.File(args['output_h5'], 'a') as d:
        for key in d.keys():
            print("Extracting Audio Feature from : ", key)
            video_name=d[key+'/video_name'][()].decode()
            path2vid = args['video_folder']+'/'+video_name
            picks = d[key+'/picks'][()]
            
            audio_feats = np.array(get_segFeats(path2vid, picks))

            print('Feature Shape: ', audio_feats.shape)
            
            d.create_dataset(key + '/aud_feats', data=audio_feats)
            
            

### TVSum Audio Feature Extraction

In [12]:
args={
    'output_h5':'extracted_features/normal/TVSum.h5',
    'video_folder':'../data/Public datasets/ydata-tvsum50-v1_1/video'
}

In [107]:
extract_audio_feats(args)

Extracting Audio Feature from :  video_1


100%|████████████████████████████████████████████████████████████████████████████████| 706/706 [00:27<00:00, 25.44it/s]


Feature Shape:  (706, 128)
Extracting Audio Feature from :  video_10


100%|████████████████████████████████████████████████████████████████████████████████| 266/266 [00:10<00:00, 26.41it/s]


Feature Shape:  (266, 128)
Extracting Audio Feature from :  video_11


100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:12<00:00, 25.23it/s]


Feature Shape:  (313, 128)
Extracting Audio Feature from :  video_12


100%|████████████████████████████████████████████████████████████████████████████████| 900/900 [00:32<00:00, 27.58it/s]


Feature Shape:  (900, 128)
Extracting Audio Feature from :  video_13


100%|████████████████████████████████████████████████████████████████████████████████| 235/235 [00:08<00:00, 26.33it/s]


Feature Shape:  (235, 128)
Extracting Audio Feature from :  video_14


100%|████████████████████████████████████████████████████████████████████████████████| 323/323 [00:12<00:00, 26.23it/s]


Feature Shape:  (323, 128)
Extracting Audio Feature from :  video_15


100%|████████████████████████████████████████████████████████████████████████████████| 288/288 [00:10<00:00, 26.64it/s]


Feature Shape:  (288, 128)
Extracting Audio Feature from :  video_16


100%|████████████████████████████████████████████████████████████████████████████████| 635/635 [00:25<00:00, 25.24it/s]


Feature Shape:  (635, 128)
Extracting Audio Feature from :  video_17


100%|████████████████████████████████████████████████████████████████████████████████| 389/389 [00:15<00:00, 25.31it/s]


Feature Shape:  (389, 128)
Extracting Audio Feature from :  video_18


100%|████████████████████████████████████████████████████████████████████████████████| 648/648 [00:25<00:00, 25.11it/s]


Feature Shape:  (648, 128)
Extracting Audio Feature from :  video_19


100%|████████████████████████████████████████████████████████████████████████████████| 382/382 [00:14<00:00, 25.61it/s]


Feature Shape:  (382, 128)
Extracting Audio Feature from :  video_2


100%|████████████████████████████████████████████████████████████████████████████████| 312/312 [00:12<00:00, 25.84it/s]


Feature Shape:  (312, 128)
Extracting Audio Feature from :  video_20


100%|████████████████████████████████████████████████████████████████████████████████| 416/416 [00:17<00:00, 23.85it/s]


Feature Shape:  (416, 128)
Extracting Audio Feature from :  video_21


100%|██████████████████████████████████████████████████████████████████████████████| 1293/1293 [00:52<00:00, 24.68it/s]


Feature Shape:  (1293, 128)
Extracting Audio Feature from :  video_22


100%|████████████████████████████████████████████████████████████████████████████████| 377/377 [00:15<00:00, 24.00it/s]


Feature Shape:  (377, 128)
Extracting Audio Feature from :  video_23


100%|████████████████████████████████████████████████████████████████████████████████| 375/375 [00:16<00:00, 23.34it/s]


Feature Shape:  (375, 128)
Extracting Audio Feature from :  video_24


100%|████████████████████████████████████████████████████████████████████████████████| 290/290 [00:11<00:00, 25.71it/s]


Feature Shape:  (290, 128)
Extracting Audio Feature from :  video_25


100%|████████████████████████████████████████████████████████████████████████████████| 438/438 [00:17<00:00, 25.03it/s]


Feature Shape:  (438, 128)
Extracting Audio Feature from :  video_26


100%|████████████████████████████████████████████████████████████████████████████████| 220/220 [00:10<00:00, 21.33it/s]


Feature Shape:  (220, 128)
Extracting Audio Feature from :  video_27


100%|████████████████████████████████████████████████████████████████████████████████| 727/727 [00:30<00:00, 23.95it/s]


Feature Shape:  (727, 128)
Extracting Audio Feature from :  video_28


100%|████████████████████████████████████████████████████████████████████████████████| 552/552 [00:20<00:00, 26.34it/s]


Feature Shape:  (552, 128)
Extracting Audio Feature from :  video_29


100%|██████████████████████████████████████████████████████████████████████████████| 1168/1168 [00:46<00:00, 25.32it/s]


Feature Shape:  (1168, 128)
Extracting Audio Feature from :  video_3


100%|████████████████████████████████████████████████████████████████████████████████| 934/934 [00:36<00:00, 25.46it/s]


Feature Shape:  (934, 128)
Extracting Audio Feature from :  video_30


100%|████████████████████████████████████████████████████████████████████████████████| 267/267 [00:10<00:00, 24.81it/s]


Feature Shape:  (267, 128)
Extracting Audio Feature from :  video_31


100%|████████████████████████████████████████████████████████████████████████████████| 360/360 [00:14<00:00, 25.55it/s]


Feature Shape:  (360, 128)
Extracting Audio Feature from :  video_32


100%|████████████████████████████████████████████████████████████████████████████████| 253/253 [00:09<00:00, 26.64it/s]


Feature Shape:  (253, 128)
Extracting Audio Feature from :  video_33


100%|████████████████████████████████████████████████████████████████████████████████| 891/891 [00:33<00:00, 26.31it/s]


Feature Shape:  (891, 128)
Extracting Audio Feature from :  video_34


100%|████████████████████████████████████████████████████████████████████████████████| 247/247 [00:09<00:00, 26.35it/s]


Feature Shape:  (247, 128)
Extracting Audio Feature from :  video_35


100%|████████████████████████████████████████████████████████████████████████████████| 297/297 [00:11<00:00, 26.86it/s]


Feature Shape:  (297, 128)
Extracting Audio Feature from :  video_36


100%|████████████████████████████████████████████████████████████████████████████████| 530/530 [00:20<00:00, 26.05it/s]


Feature Shape:  (530, 128)
Extracting Audio Feature from :  video_37


100%|████████████████████████████████████████████████████████████████████████████████| 267/267 [00:10<00:00, 25.88it/s]


Feature Shape:  (267, 128)
Extracting Audio Feature from :  video_38


100%|████████████████████████████████████████████████████████████████████████████████| 196/196 [00:07<00:00, 26.39it/s]


Feature Shape:  (196, 128)
Extracting Audio Feature from :  video_39


100%|████████████████████████████████████████████████████████████████████████████████| 277/277 [00:10<00:00, 26.13it/s]


Feature Shape:  (277, 128)
Extracting Audio Feature from :  video_4


100%|████████████████████████████████████████████████████████████████████████████████| 480/480 [00:19<00:00, 25.21it/s]


Feature Shape:  (480, 128)
Extracting Audio Feature from :  video_40


100%|████████████████████████████████████████████████████████████████████████████████| 760/760 [00:30<00:00, 24.99it/s]


Feature Shape:  (760, 128)
Extracting Audio Feature from :  video_41


100%|████████████████████████████████████████████████████████████████████████████████| 538/538 [00:20<00:00, 26.20it/s]


Feature Shape:  (538, 128)
Extracting Audio Feature from :  video_42


100%|████████████████████████████████████████████████████████████████████████████████| 395/395 [00:15<00:00, 25.54it/s]


Feature Shape:  (395, 128)
Extracting Audio Feature from :  video_43


100%|████████████████████████████████████████████████████████████████████████████████| 328/328 [00:12<00:00, 25.75it/s]


Feature Shape:  (328, 128)
Extracting Audio Feature from :  video_44


100%|████████████████████████████████████████████████████████████████████████████████| 286/286 [00:11<00:00, 25.57it/s]


Feature Shape:  (286, 128)
Extracting Audio Feature from :  video_45


100%|████████████████████████████████████████████████████████████████████████████████| 166/166 [00:06<00:00, 25.50it/s]


Feature Shape:  (166, 128)
Extracting Audio Feature from :  video_46


100%|██████████████████████████████████████████████████████████████████████████████| 1020/1020 [00:40<00:00, 25.45it/s]


Feature Shape:  (1020, 128)
Extracting Audio Feature from :  video_47


100%|████████████████████████████████████████████████████████████████████████████████| 316/316 [00:12<00:00, 25.63it/s]


Feature Shape:  (316, 128)
Extracting Audio Feature from :  video_48


100%|████████████████████████████████████████████████████████████████████████████████| 259/259 [00:10<00:00, 25.81it/s]


Feature Shape:  (259, 128)
Extracting Audio Feature from :  video_49


100%|████████████████████████████████████████████████████████████████████████████████| 398/398 [00:15<00:00, 25.37it/s]


Feature Shape:  (398, 128)
Extracting Audio Feature from :  video_5


100%|████████████████████████████████████████████████████████████████████████████████| 221/221 [00:09<00:00, 23.51it/s]


Feature Shape:  (221, 128)
Extracting Audio Feature from :  video_50


100%|████████████████████████████████████████████████████████████████████████████████| 460/460 [00:17<00:00, 25.92it/s]


Feature Shape:  (460, 128)
Extracting Audio Feature from :  video_6


100%|████████████████████████████████████████████████████████████████████████████████| 644/644 [00:25<00:00, 25.34it/s]


Feature Shape:  (644, 128)
Extracting Audio Feature from :  video_7


100%|████████████████████████████████████████████████████████████████████████████████| 297/297 [00:11<00:00, 25.02it/s]


Feature Shape:  (297, 128)
Extracting Audio Feature from :  video_8


100%|████████████████████████████████████████████████████████████████████████████████| 658/658 [00:26<00:00, 25.31it/s]


Feature Shape:  (658, 128)
Extracting Audio Feature from :  video_9


100%|████████████████████████████████████████████████████████████████████████████████| 467/467 [00:17<00:00, 25.96it/s]

Feature Shape:  (467, 128)





--------------