CasparCG · ducthiem90 · Jun 19, 2019 · Aug 6, 2019 · Aug 6, 2019
diff --git a/src/core/frame/frame.cpp b/src/core/frame/frame.cpp
@@ -84,21 +84,25 @@ array<std::uint8_t>&       mutable_frame::image_data(std::size_t index) { return
 array<std::int32_t>&       mutable_frame::audio_data() { return impl_->audio_data_; }
 std::size_t                mutable_frame::width() const { return impl_->desc_.planes.at(0).width; }
 std::size_t                mutable_frame::height() const { return impl_->desc_.planes.at(0).height; }
+const void*                mutable_frame::stream_tag() const { return impl_->tag_; }
 const frame_geometry&      mutable_frame::geometry() const { return impl_->geometry_; }
 frame_geometry&            mutable_frame::geometry() { return impl_->geometry_; }
 
 struct const_frame::impl
 {
     std::vector<array<const std::uint8_t>> image_data_;
     array<const std::int32_t>              audio_data_;
-    core::pixel_format_desc                desc_     = pixel_format::invalid;
+    core::pixel_format_desc                desc_ = pixel_format::invalid;
+    const void*                            tag_;
     frame_geometry                         geometry_ = frame_geometry::get_default();
     boost::any                             opaque_;
 
-    impl(std::vector<array<const std::uint8_t>> image_data,
+    impl(const void*                            tag,
+         std::vector<array<const std::uint8_t>> image_data,
          array<const std::int32_t>              audio_data,
          const core::pixel_format_desc&         desc)
-        : image_data_(std::move(image_data))
+        : tag_(tag)
+        , image_data_(std::move(image_data))
         , audio_data_(std::move(audio_data))
         , desc_(desc)
     {
@@ -107,10 +111,12 @@ struct const_frame::impl
         }
     }
 
-    impl(std::vector<array<std::uint8_t>>&& image_data,
+    impl(const void*                        tag,
+         std::vector<array<std::uint8_t>>&& image_data,
          array<const std::int32_t>          audio_data,
          const core::pixel_format_desc&     desc)
-        : image_data_(std::make_move_iterator(image_data.begin()), std::make_move_iterator(image_data.end()))
+        : tag_(tag)
+        , image_data_(std::make_move_iterator(image_data.begin()), std::make_move_iterator(image_data.end()))
         , audio_data_(std::move(audio_data))
         , desc_(desc)
     {
@@ -120,7 +126,8 @@ struct const_frame::impl
     }
 
     impl(mutable_frame&& other)
-        : image_data_(std::make_move_iterator(other.impl_->image_data_.begin()),
+        : tag_(other.stream_tag())
+        , image_data_(std::make_move_iterator(other.impl_->image_data_.begin()),
                       std::make_move_iterator(other.impl_->image_data_.end()))
         , audio_data_(std::move(other.impl_->audio_data_))
         , desc_(std::move(other.impl_->desc_))
@@ -147,7 +154,7 @@ const_frame::const_frame() {}
 const_frame::const_frame(std::vector<array<const std::uint8_t>> image_data,
                          array<const std::int32_t>              audio_data,
                          const core::pixel_format_desc&         desc)
-    : impl_(new impl(std::move(image_data), std::move(audio_data), desc))
+    : impl_(new impl(nullptr, std::move(image_data), std::move(audio_data), desc))
 {
 }
 const_frame::const_frame(mutable_frame&& other)
@@ -174,6 +181,7 @@ const array<const std::int32_t>& const_frame::audio_data() const { return impl_-
 std::size_t                      const_frame::width() const { return impl_->width(); }
 std::size_t                      const_frame::height() const { return impl_->height(); }
 std::size_t                      const_frame::size() const { return impl_->size(); }
+const void*                      const_frame::stream_tag() const { return impl_->tag_; }
 const frame_geometry&            const_frame::geometry() const { return impl_->geometry_; }
 const boost::any&                const_frame::opaque() const { return impl_->opaque_; }
 const_frame::operator bool() const { return impl_ != nullptr && impl_->desc_.format != core::pixel_format::invalid; }

diff --git a/src/core/frame/frame.h b/src/core/frame/frame.h
@@ -46,6 +46,8 @@ class mutable_frame final
 
     std::size_t height() const;
 
+    const void* stream_tag() const;
+
     class frame_geometry&       geometry();
     const class frame_geometry& geometry() const;
 
@@ -80,6 +82,8 @@ class const_frame final
 
     std::size_t size() const;
 
+    const void* stream_tag() const;
+
     const boost::any& opaque() const;
 
     const class frame_geometry& geometry() const;

diff --git a/src/core/mixer/audio/audio_mixer.cpp b/src/core/mixer/audio/audio_mixer.cpp
@@ -42,6 +42,7 @@ using namespace boost::container;
 
 struct audio_item
 {
+    const void*          tag = nullptr;
     audio_transform      transform;
     array<const int32_t> samples;
 };
@@ -50,11 +51,13 @@ using audio_buffer_ps = std::vector<double>;
 
 struct audio_mixer::impl
 {
-    monitor::state                      state_;
-    std::stack<core::audio_transform>   transform_stack_;
-    std::vector<audio_item>             items_;
-    std::atomic<float>                  master_volume_{1.0f};
-    spl::shared_ptr<diagnostics::graph> graph_;
+    monitor::state                              state_;
+    std::stack<core::audio_transform>           transform_stack_;
+    std::vector<audio_item>                     items_;
+    std::map<const void*, std::vector<int32_t>> audio_streams_;
+    video_format_desc                           format_desc_;
+    std::atomic<float>                          master_volume_{1.0f};
+    spl::shared_ptr<diagnostics::graph>         graph_;
 
     impl(const impl&) = delete;
     impl& operator=(const impl&) = delete;
@@ -80,6 +83,7 @@ struct audio_mixer::impl
         audio_item item;
         item.transform = transform_stack_.top();
         item.samples   = frame.audio_data();
+        item.tag       = frame.stream_tag();
 
         items_.push_back(std::move(item));
     }
@@ -92,25 +96,59 @@ struct audio_mixer::impl
 
     array<const int32_t> mix(const video_format_desc& format_desc, int nb_samples)
     {
+        if (format_desc_ != format_desc) {
+            audio_streams_.clear();
+            format_desc_ = format_desc;
+        }
+
         auto channels = format_desc.audio_channels;
         auto items    = std::move(items_);
         auto result   = std::vector<int32_t>(nb_samples * channels, 0);
 
         auto mixed = std::vector<double>(nb_samples * channels, 0.0f);
 
+        std::map<const void*, std::vector<int32_t>> next_audio_streams;
+
         for (auto& item : items) {
             auto ptr  = item.samples.data();
             auto size = result.size();
+
+            auto audio_stream = audio_streams_.find(item.tag);
+            auto last_size    = audio_stream != audio_streams_.end() ? audio_stream->second.size() : 0;
+
             for (auto n = 0; n < size; ++n) {
-                if (n < item.samples.size()) {
-                    mixed[n] = static_cast<double>(ptr[n]) * item.transform.volume + mixed[n];
+                if (n < last_size) {
+                    mixed[n] = static_cast<double>(audio_stream->second[n]) * item.transform.volume + mixed[n];
                 } else {
-                    auto offset = (item.samples.size()) - (channels - (n % channels));
-                    mixed[n]    = static_cast<double>(ptr[offset]) * item.transform.volume + mixed[n];
+                    if (n < last_size + item.samples.size()) {
+                        mixed[n] = static_cast<double>(ptr[n - last_size]) * item.transform.volume + mixed[n];
+                    } else {
+                        auto offset = (item.samples.size()) - (channels - (n % channels));
+                        mixed[n]    = static_cast<double>(ptr[offset]) * item.transform.volume + mixed[n];
+                    }
+                }
+            }
+
+            if (item.tag && item.samples.size() + last_size > size) {
+                auto                 buf_size = item.samples.size() + last_size - size;
+                std::vector<int32_t> buf(buf_size);
+
+                auto last_buf_size = last_size > size ? last_size - size : 0;
+                if (last_buf_size > 0) {
+                    std::memcpy(buf.data(), audio_stream->second.data() + size, last_buf_size * sizeof(int32_t));
                 }
+
+                auto cur_buf_size = buf_size - last_buf_size;
+                std::memcpy(buf.data() + last_buf_size,
+                            item.samples.data() + item.samples.size() - cur_buf_size,
+                            cur_buf_size * sizeof(int32_t));
+
+                next_audio_streams[item.tag] = std::move(buf);
             }
         }
 
+        audio_streams_ = std::move(next_audio_streams);
+
         auto master_volume = master_volume_.load();
         for (auto n = 0; n < mixed.size(); ++n) {
             auto sample = mixed[n] * master_volume;

diff --git a/src/modules/oal/consumer/oal_consumer.cpp b/src/modules/oal/consumer/oal_consumer.cpp
@@ -158,7 +158,7 @@ struct oal_consumer : public core::frame_consumer
         graph_->set_text(print());
 
         executor_.begin_invoke([=] {
-            duration_ = format_desc_.audio_cadence[0];
+            duration_ = *std::min_element(format_desc_.audio_cadence.begin(), format_desc_.audio_cadence.end());
             buffers_.resize(8);
             alGenBuffers(static_cast<ALsizei>(buffers_.size()), buffers_.data());
             alGenSources(1, &source_);