Skip to content

Comments

Implement vggish#1061

Closed
yuki399 wants to merge 8 commits intomasterfrom
vggish
Closed

Implement vggish#1061
yuki399 wants to merge 8 commits intomasterfrom
vggish

Conversation

@yuki399
Copy link

@yuki399 yuki399 commented Mar 2, 2023

@kyakuno
Copy link
Collaborator

kyakuno commented Mar 23, 2023

モデルアップロード済み。
https://storage.googleapis.com/ailia-models/vggish/vggish.onnx

else:
wav_data = librosa.load(input_path, sr=SAMPLE_RATE)[0]

samples = wav_data / 32768.0 # Convert to [-1.0, +1.0]
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

librosaの段階で-1.0 - +1.0に正規化されているのを、さらに/32768.0で小さくしているように見えます。

savepath = get_savepath(args.savepath, input_path)
logger.info(f'saved at : {savepath}')

np.save(savepath, result)
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

torchで計算したfeatureをnumpyで保存しておいて、誤差をprintしていただければと思います。

@kyakuno
Copy link
Collaborator

kyakuno commented Mar 4, 2024

@yuki399 こちらも対応検討、お願いします。

@yuki399
Copy link
Author

yuki399 commented Mar 12, 2024

指摘に関して修正しました

# Conflicts:
#	README.md
#	scripts/download_all_models.sh
@kyakuno
Copy link
Collaborator

kyakuno commented Jan 2, 2025

入力の時間方向がStatic Shapeで19に固定されているので、音声の長さが19でない場合にReshapeでエラーになる。

スクリーンショット 2025-01-02 10 38 16

@kyakuno
Copy link
Collaborator

kyakuno commented Jan 2, 2025

@yuki399 入力のバッチサイズをDynamicShapeでエクスポートして、音声の長さが異なる場合も処理可能にできますでしょうか?

@kyakuno
Copy link
Collaborator

kyakuno commented Jan 2, 2025

また、--inputに複数のファイルを与えた場合に、それぞれのファイルでEmbeddingを計算し、ファイル同士の距離をprintできればと思います。

@kyakuno kyakuno closed this Apr 19, 2025
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants