No description, website, or topics provided.
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Type Name Latest commit message Commit time
Failed to load latest commit information.

Looking to Listen at the Cocktail Party

(English contents is below)


Googleにより発表されたLooking to Listen at the Cocktail Partyの実装を試みている。 今までのstate-of-the-artな音源分離の手法では、音源のみの情報を用いた分離が多いが、この提案手法では、動画の情報も用いることで、従来手法よりも 高い精度での音源分離を実現している。また、あらゆる話者の混ざった音声に関して分離が可能となっている。


  • GPUへの対応
  • Multi GPUへの対応
  • バッチサイズへの対応(現在はバッチサイズが1の場合のみに対応)
  • Bi-LSTM層についての調査
  • 3人以上の話者の混ざった音声の分離
  • アウトプットの形




はじめは音源のストリームと、動画のストリームに分かれており、それぞれdilated convolution層が配置されている。それぞれのストリームの結果を 結合した後にはBidirectionalLSTM、そして全結合層が続く。

Looking to Listen at the Cocktail Party


We are trying to make the network called "Looking to Listen at the Cocktail Party", which is developed by Google. Regardless of speekers, this network can isolate speeches from mixtures of sounds. Its results are better than any state-of-the-art methods with audio only data because of using both of audio and visual data.

Points to be improved are:

  • GPU calculation
  • Multi GPU calculation
  • plural batch size
  • research of Bi-LSTM layer
  • separating mixtures of 3 or more speeches
  • output shape

If you have some opinions or advices, let me know. We will be waiting for them.


This neural network is trained with visual and audio data. Model diagram is as shown below.

First there are audio stream and visual streams. These streams have some dilated convolution layers, and then there are created the concatenating layer followed by Bi-directionalLSTM layer and 3 fully connected layers.