ESPHome: /opt/build/esphome/esphome/components/mixer/speaker/mixer_speaker.cpp Source File

 #include "mixer_speaker.h"

 #ifdef USE_ESP32

 #include "esphome/core/hal.h"
 #include "esphome/core/helpers.h"
 #include "esphome/core/log.h"

 #include <algorithm>
 #include <cstring>

 namespace esphome {
 namespace mixer_speaker {

 static const UBaseType_t MIXER_TASK_PRIORITY = 10;

 static const uint32_t TRANSFER_BUFFER_DURATION_MS = 50;
 static const uint32_t TASK_DELAY_MS = 25;

 static const size_t TASK_STACK_SIZE = 4096;

 static const int16_t MAX_AUDIO_SAMPLE_VALUE = INT16_MAX;
 static const int16_t MIN_AUDIO_SAMPLE_VALUE = INT16_MIN;

 static const char *const TAG = "speaker_mixer";

 // Gives the Q15 fixed point scaling factor to reduce by 0 dB, 1dB, ..., 50 dB
 // dB to PCM scaling factor formula: floating_point_scale_factor = 2^(-db/6.014)
 // float to Q15 fixed point formula: q15_scale_factor = floating_point_scale_factor * 2^(15)
 static const std::vector<int16_t> DECIBEL_REDUCTION_TABLE = {
     32767, 29201, 26022, 23189, 20665, 18415, 16410, 14624, 13032, 11613, 10349, 9222, 8218, 7324, 6527, 5816, 5183,
     4619,  4116,  3668,  3269,  2913,  2596,  2313,  2061,  1837,  1637,  1459,  1300, 1158, 1032, 920,  820,  731,
     651,   580,   517,   461,   411,   366,   326,   291,   259,   231,   206,   183,  163,  146,  130,  116,  103};

 enum MixerEventGroupBits : uint32_t {
   COMMAND_STOP = (1 << 0),  // stops the mixer task
   STATE_STARTING = (1 << 10),
   STATE_RUNNING = (1 << 11),
   STATE_STOPPING = (1 << 12),
   STATE_STOPPED = (1 << 13),
   ERR_ESP_NO_MEM = (1 << 19),
   ALL_BITS = 0x00FFFFFF,  // All valid FreeRTOS event group bits
 };

 void SourceSpeaker::dump_config() {
   ESP_LOGCONFIG(TAG, "Mixer Source Speaker");
   ESP_LOGCONFIG(TAG, "  Buffer Duration: %" PRIu32 " ms", this->buffer_duration_ms_);
   if (this->timeout_ms_.has_value()) {
     ESP_LOGCONFIG(TAG, "  Timeout: %" PRIu32 " ms", this->timeout_ms_.value());
   } else {
     ESP_LOGCONFIG(TAG, "  Timeout: never");
   }
 }

 void SourceSpeaker::setup() {
   this->parent_->get_output_speaker()->add_audio_output_callback(
       [this](uint32_t new_playback_ms, uint32_t remainder_us, uint32_t pending_ms, uint32_t write_timestamp) {
         uint32_t personal_playback_ms = std::min(new_playback_ms, this->pending_playback_ms_);
         if (personal_playback_ms > 0) {
           this->pending_playback_ms_ -= personal_playback_ms;
           this->audio_output_callback_(personal_playback_ms, remainder_us, this->pending_playback_ms_, write_timestamp);
         }
       });
 }

 void SourceSpeaker::loop() {
   switch (this->state_) {
     case speaker::STATE_STARTING: {
       esp_err_t err = this->start_();
       if (err == ESP_OK) {
         this->state_ = speaker::STATE_RUNNING;
         this->stop_gracefully_ = false;
         this->last_seen_data_ms_ = millis();
         this->status_clear_error();
       } else {
         switch (err) {
           case ESP_ERR_NO_MEM:
             this->status_set_error("Failed to start mixer: not enough memory");
             break;
           case ESP_ERR_NOT_SUPPORTED:
             this->status_set_error("Failed to start mixer: unsupported bits per sample");
             break;
           case ESP_ERR_INVALID_ARG:
             this->status_set_error("Failed to start mixer: audio stream isn't compatible with the other audio stream.");
             break;
           case ESP_ERR_INVALID_STATE:
             this->status_set_error("Failed to start mixer: mixer task failed to start");
             break;
           default:
             this->status_set_error("Failed to start mixer");
             break;
         }

         this->state_ = speaker::STATE_STOPPING;
       }
       break;
     }
     case speaker::STATE_RUNNING:
       if (!this->transfer_buffer_->has_buffered_data()) {
         if ((this->timeout_ms_.has_value() && ((millis() - this->last_seen_data_ms_) > this->timeout_ms_.value())) ||
             this->stop_gracefully_) {
           this->state_ = speaker::STATE_STOPPING;
         }
       }
       break;
     case speaker::STATE_STOPPING:
       this->stop_();
       this->stop_gracefully_ = false;
       this->state_ = speaker::STATE_STOPPED;
       break;
     case speaker::STATE_STOPPED:
       break;
   }
 }

 size_t SourceSpeaker::play(const uint8_t *data, size_t length, TickType_t ticks_to_wait) {
   if (this->is_stopped()) {
     this->start();
   }
   size_t bytes_written = 0;
   if (this->ring_buffer_.use_count() == 1) {
     std::shared_ptr<RingBuffer> temp_ring_buffer = this->ring_buffer_.lock();
     bytes_written = temp_ring_buffer->write_without_replacement(data, length, ticks_to_wait);
     if (bytes_written > 0) {
       this->last_seen_data_ms_ = millis();
     }
   }
   return bytes_written;
 }

 void SourceSpeaker::start() { this->state_ = speaker::STATE_STARTING; }

 esp_err_t SourceSpeaker::start_() {
   const size_t ring_buffer_size = this->audio_stream_info_.ms_to_bytes(this->buffer_duration_ms_);
   if (this->transfer_buffer_.use_count() == 0) {
     this->transfer_buffer_ =
         audio::AudioSourceTransferBuffer::create(this->audio_stream_info_.ms_to_bytes(TRANSFER_BUFFER_DURATION_MS));

     if (this->transfer_buffer_ == nullptr) {
       return ESP_ERR_NO_MEM;
     }
     std::shared_ptr<RingBuffer> temp_ring_buffer;

     if (!this->ring_buffer_.use_count()) {
       temp_ring_buffer = RingBuffer::create(ring_buffer_size);
       this->ring_buffer_ = temp_ring_buffer;
     }

     if (!this->ring_buffer_.use_count()) {
       return ESP_ERR_NO_MEM;
     } else {
       this->transfer_buffer_->set_source(temp_ring_buffer);
     }
   }

   return this->parent_->start(this->audio_stream_info_);
 }

 void SourceSpeaker::stop() {
   if (this->state_ != speaker::STATE_STOPPED) {
     this->state_ = speaker::STATE_STOPPING;
   }
 }

 void SourceSpeaker::stop_() {
   this->transfer_buffer_.reset();  // deallocates the transfer buffer
 }

 void SourceSpeaker::finish() { this->stop_gracefully_ = true; }

 bool SourceSpeaker::has_buffered_data() const {
   return ((this->transfer_buffer_.use_count() > 0) && this->transfer_buffer_->has_buffered_data());
 }

 void SourceSpeaker::set_mute_state(bool mute_state) {
   this->mute_state_ = mute_state;
   this->parent_->get_output_speaker()->set_mute_state(mute_state);
 }

 bool SourceSpeaker::get_mute_state() { return this->parent_->get_output_speaker()->get_mute_state(); }

 void SourceSpeaker::set_volume(float volume) {
   this->volume_ = volume;
   this->parent_->get_output_speaker()->set_volume(volume);
 }

 float SourceSpeaker::get_volume() { return this->parent_->get_output_speaker()->get_volume(); }

 size_t SourceSpeaker::process_data_from_source(TickType_t ticks_to_wait) {
   if (!this->transfer_buffer_.use_count()) {
     return 0;
   }

   // Store current offset, as these samples are already ducked
   const size_t current_length = this->transfer_buffer_->available();

   size_t bytes_read = this->transfer_buffer_->transfer_data_from_source(ticks_to_wait);

   uint32_t samples_to_duck = this->audio_stream_info_.bytes_to_samples(bytes_read);
   if (samples_to_duck > 0) {
     int16_t *current_buffer = reinterpret_cast<int16_t *>(this->transfer_buffer_->get_buffer_start() + current_length);

     duck_samples(current_buffer, samples_to_duck, &this->current_ducking_db_reduction_,
                  &this->ducking_transition_samples_remaining_, this->samples_per_ducking_step_,
                  this->db_change_per_ducking_step_);
   }

   return bytes_read;
 }

 void SourceSpeaker::apply_ducking(uint8_t decibel_reduction, uint32_t duration) {
   if (this->target_ducking_db_reduction_ != decibel_reduction) {
     this->current_ducking_db_reduction_ = this->target_ducking_db_reduction_;

     this->target_ducking_db_reduction_ = decibel_reduction;

     uint8_t total_ducking_steps = 0;
     if (this->target_ducking_db_reduction_ > this->current_ducking_db_reduction_) {
       // The dB reduction level is increasing (which results in quieter audio)
       total_ducking_steps = this->target_ducking_db_reduction_ - this->current_ducking_db_reduction_ - 1;
       this->db_change_per_ducking_step_ = 1;
     } else {
       // The dB reduction level is decreasing (which results in louder audio)
       total_ducking_steps = this->current_ducking_db_reduction_ - this->target_ducking_db_reduction_ - 1;
       this->db_change_per_ducking_step_ = -1;
     }
     if ((duration > 0) && (total_ducking_steps > 0)) {
       this->ducking_transition_samples_remaining_ = this->audio_stream_info_.ms_to_samples(duration);

       this->samples_per_ducking_step_ = this->ducking_transition_samples_remaining_ / total_ducking_steps;
       this->ducking_transition_samples_remaining_ =
           this->samples_per_ducking_step_ * total_ducking_steps;  // Adjust for integer division rounding

       this->current_ducking_db_reduction_ += this->db_change_per_ducking_step_;
     } else {
       this->ducking_transition_samples_remaining_ = 0;
       this->current_ducking_db_reduction_ = this->target_ducking_db_reduction_;
     }
   }
 }

 void SourceSpeaker::duck_samples(int16_t *input_buffer, uint32_t input_samples_to_duck,
                                  int8_t *current_ducking_db_reduction, uint32_t *ducking_transition_samples_remaining,
                                  uint32_t samples_per_ducking_step, int8_t db_change_per_ducking_step) {
   if (*ducking_transition_samples_remaining > 0) {
     // Ducking level is still transitioning

     // Takes the ceiling of input_samples_to_duck/samples_per_ducking_step
     uint32_t ducking_steps_in_batch =
         input_samples_to_duck / samples_per_ducking_step + (input_samples_to_duck % samples_per_ducking_step != 0);

     for (uint32_t i = 0; i < ducking_steps_in_batch; ++i) {
       uint32_t samples_left_in_step = *ducking_transition_samples_remaining % samples_per_ducking_step;

       if (samples_left_in_step == 0) {
         samples_left_in_step = samples_per_ducking_step;
       }

       uint32_t samples_to_duck = std::min(input_samples_to_duck, samples_left_in_step);
       samples_to_duck = std::min(samples_to_duck, *ducking_transition_samples_remaining);

       // Ensure we only point to valid index in the Q15 scaling factor table
       uint8_t safe_db_reduction_index =
           clamp<uint8_t>(*current_ducking_db_reduction, 0, DECIBEL_REDUCTION_TABLE.size() - 1);
       int16_t q15_scale_factor = DECIBEL_REDUCTION_TABLE[safe_db_reduction_index];

       audio::scale_audio_samples(input_buffer, input_buffer, q15_scale_factor, samples_to_duck);

       if (samples_left_in_step - samples_to_duck == 0) {
         // After scaling the current samples, we are ready to transition to the next step
         *current_ducking_db_reduction += db_change_per_ducking_step;
       }

       input_buffer += samples_to_duck;
       *ducking_transition_samples_remaining -= samples_to_duck;
       input_samples_to_duck -= samples_to_duck;
     }
   }

   if ((*current_ducking_db_reduction > 0) && (input_samples_to_duck > 0)) {
     // Audio is ducked, but its not in the middle of a transition step

     uint8_t safe_db_reduction_index =
         clamp<uint8_t>(*current_ducking_db_reduction, 0, DECIBEL_REDUCTION_TABLE.size() - 1);
     int16_t q15_scale_factor = DECIBEL_REDUCTION_TABLE[safe_db_reduction_index];

     audio::scale_audio_samples(input_buffer, input_buffer, q15_scale_factor, input_samples_to_duck);
   }
 }

 void MixerSpeaker::dump_config() {
   ESP_LOGCONFIG(TAG, "Speaker Mixer:");
   ESP_LOGCONFIG(TAG, "  Number of output channels: %u", this->output_channels_);
 }

 void MixerSpeaker::setup() {
   this->event_group_ = xEventGroupCreate();

   if (this->event_group_ == nullptr) {
     ESP_LOGE(TAG, "Failed to create event group");
     this->mark_failed();
     return;
   }
 }

 void MixerSpeaker::loop() {
   uint32_t event_group_bits = xEventGroupGetBits(this->event_group_);

   if (event_group_bits & MixerEventGroupBits::STATE_STARTING) {
     ESP_LOGD(TAG, "Starting speaker mixer");
     xEventGroupClearBits(this->event_group_, MixerEventGroupBits::STATE_STARTING);
   }
   if (event_group_bits & MixerEventGroupBits::ERR_ESP_NO_MEM) {
     this->status_set_error("Failed to allocate the mixer's internal buffer");
     xEventGroupClearBits(this->event_group_, MixerEventGroupBits::ERR_ESP_NO_MEM);
   }
   if (event_group_bits & MixerEventGroupBits::STATE_RUNNING) {
     ESP_LOGD(TAG, "Started speaker mixer");
     this->status_clear_error();
     xEventGroupClearBits(this->event_group_, MixerEventGroupBits::STATE_RUNNING);
   }
   if (event_group_bits & MixerEventGroupBits::STATE_STOPPING) {
     ESP_LOGD(TAG, "Stopping speaker mixer");
     xEventGroupClearBits(this->event_group_, MixerEventGroupBits::STATE_STOPPING);
   }
   if (event_group_bits & MixerEventGroupBits::STATE_STOPPED) {
     if (this->delete_task_() == ESP_OK) {
       xEventGroupClearBits(this->event_group_, MixerEventGroupBits::ALL_BITS);
     }
   }

   if (this->task_handle_ != nullptr) {
     bool all_stopped = true;

     for (auto &speaker : this->source_speakers_) {
       all_stopped &= speaker->is_stopped();
     }

     if (all_stopped) {
       this->stop();
     }
   }
 }

 esp_err_t MixerSpeaker::start(audio::AudioStreamInfo &stream_info) {
   if (!this->audio_stream_info_.has_value()) {
     if (stream_info.get_bits_per_sample() != 16) {
       // Audio streams that don't have 16 bits per sample are not supported
       return ESP_ERR_NOT_SUPPORTED;
     }

     this->audio_stream_info_ = audio::AudioStreamInfo(stream_info.get_bits_per_sample(), this->output_channels_,
                                                       stream_info.get_sample_rate());
     this->output_speaker_->set_audio_stream_info(this->audio_stream_info_.value());
   } else {
     if (!this->queue_mode_ && (stream_info.get_sample_rate() != this->audio_stream_info_.value().get_sample_rate())) {
       // The two audio streams must have the same sample rate to mix properly if not in queue mode
       return ESP_ERR_INVALID_ARG;
     }
   }

   return this->start_task_();
 }

 esp_err_t MixerSpeaker::start_task_() {
   if (this->task_stack_buffer_ == nullptr) {
     if (this->task_stack_in_psram_) {
       RAMAllocator<StackType_t> stack_allocator(RAMAllocator<StackType_t>::ALLOC_EXTERNAL);
       this->task_stack_buffer_ = stack_allocator.allocate(TASK_STACK_SIZE);
     } else {
       RAMAllocator<StackType_t> stack_allocator(RAMAllocator<StackType_t>::ALLOC_INTERNAL);
       this->task_stack_buffer_ = stack_allocator.allocate(TASK_STACK_SIZE);
     }
   }

   if (this->task_stack_buffer_ == nullptr) {
     return ESP_ERR_NO_MEM;
   }

   if (this->task_handle_ == nullptr) {
     this->task_handle_ = xTaskCreateStatic(audio_mixer_task, "mixer", TASK_STACK_SIZE, (void *) this,
                                            MIXER_TASK_PRIORITY, this->task_stack_buffer_, &this->task_stack_);
   }

   if (this->task_handle_ == nullptr) {
     return ESP_ERR_INVALID_STATE;
   }

   return ESP_OK;
 }

 esp_err_t MixerSpeaker::delete_task_() {
   if (!this->task_created_) {
     this->task_handle_ = nullptr;

     if (this->task_stack_buffer_ != nullptr) {
       if (this->task_stack_in_psram_) {
         RAMAllocator<StackType_t> stack_allocator(RAMAllocator<StackType_t>::ALLOC_EXTERNAL);
         stack_allocator.deallocate(this->task_stack_buffer_, TASK_STACK_SIZE);
       } else {
         RAMAllocator<StackType_t> stack_allocator(RAMAllocator<StackType_t>::ALLOC_INTERNAL);
         stack_allocator.deallocate(this->task_stack_buffer_, TASK_STACK_SIZE);
       }

       this->task_stack_buffer_ = nullptr;
     }

     return ESP_OK;
   }

   return ESP_ERR_INVALID_STATE;
 }

 void MixerSpeaker::stop() { xEventGroupSetBits(this->event_group_, MixerEventGroupBits::COMMAND_STOP); }

 void MixerSpeaker::copy_frames(const int16_t *input_buffer, audio::AudioStreamInfo input_stream_info,
                                int16_t *output_buffer, audio::AudioStreamInfo output_stream_info,
                                uint32_t frames_to_transfer) {
   uint8_t input_channels = input_stream_info.get_channels();
   uint8_t output_channels = output_stream_info.get_channels();
   const uint8_t max_input_channel_index = input_channels - 1;

   if (input_channels == output_channels) {
     size_t bytes_to_copy = input_stream_info.frames_to_bytes(frames_to_transfer);
     memcpy(output_buffer, input_buffer, bytes_to_copy);

     return;
   }

   for (uint32_t frame_index = 0; frame_index < frames_to_transfer; ++frame_index) {
     for (uint8_t output_channel_index = 0; output_channel_index < output_channels; ++output_channel_index) {
       uint8_t input_channel_index = std::min(output_channel_index, max_input_channel_index);
       output_buffer[output_channels * frame_index + output_channel_index] =
           input_buffer[input_channels * frame_index + input_channel_index];
     }
   }
 }

 void MixerSpeaker::mix_audio_samples(const int16_t *primary_buffer, audio::AudioStreamInfo primary_stream_info,
                                      const int16_t *secondary_buffer, audio::AudioStreamInfo secondary_stream_info,
                                      int16_t *output_buffer, audio::AudioStreamInfo output_stream_info,
                                      uint32_t frames_to_mix) {
   const uint8_t primary_channels = primary_stream_info.get_channels();
   const uint8_t secondary_channels = secondary_stream_info.get_channels();
   const uint8_t output_channels = output_stream_info.get_channels();

   const uint8_t max_primary_channel_index = primary_channels - 1;
   const uint8_t max_secondary_channel_index = secondary_channels - 1;

   for (uint32_t frames_index = 0; frames_index < frames_to_mix; ++frames_index) {
     for (uint8_t output_channel_index = 0; output_channel_index < output_channels; ++output_channel_index) {
       const uint32_t secondary_channel_index = std::min(output_channel_index, max_secondary_channel_index);
       const int32_t secondary_sample = secondary_buffer[frames_index * secondary_channels + secondary_channel_index];

       const uint32_t primary_channel_index = std::min(output_channel_index, max_primary_channel_index);
       const int32_t primary_sample =
           static_cast<int32_t>(primary_buffer[frames_index * primary_channels + primary_channel_index]);

       const int32_t added_sample = secondary_sample + primary_sample;

       output_buffer[frames_index * output_channels + output_channel_index] =
           static_cast<int16_t>(clamp<int32_t>(added_sample, MIN_AUDIO_SAMPLE_VALUE, MAX_AUDIO_SAMPLE_VALUE));
     }
   }
 }

 void MixerSpeaker::audio_mixer_task(void *params) {
   MixerSpeaker *this_mixer = (MixerSpeaker *) params;

   xEventGroupSetBits(this_mixer->event_group_, MixerEventGroupBits::STATE_STARTING);

   this_mixer->task_created_ = true;

   std::unique_ptr<audio::AudioSinkTransferBuffer> output_transfer_buffer = audio::AudioSinkTransferBuffer::create(
       this_mixer->audio_stream_info_.value().ms_to_bytes(TRANSFER_BUFFER_DURATION_MS));

   if (output_transfer_buffer == nullptr) {
     xEventGroupSetBits(this_mixer->event_group_,
                        MixerEventGroupBits::STATE_STOPPED | MixerEventGroupBits::ERR_ESP_NO_MEM);

     this_mixer->task_created_ = false;
     vTaskDelete(nullptr);
   }

   output_transfer_buffer->set_sink(this_mixer->output_speaker_);

   xEventGroupSetBits(this_mixer->event_group_, MixerEventGroupBits::STATE_RUNNING);

   bool sent_finished = false;

   while (true) {
     uint32_t event_group_bits = xEventGroupGetBits(this_mixer->event_group_);
     if (event_group_bits & MixerEventGroupBits::COMMAND_STOP) {
       break;
     }

     // Never shift the data in the output transfer buffer to avoid unnecessary, slow data moves
     output_transfer_buffer->transfer_data_to_sink(pdMS_TO_TICKS(TASK_DELAY_MS), false);

     const uint32_t output_frames_free =
         this_mixer->audio_stream_info_.value().bytes_to_frames(output_transfer_buffer->free());

     std::vector<SourceSpeaker *> speakers_with_data;
     std::vector<std::shared_ptr<audio::AudioSourceTransferBuffer>> transfer_buffers_with_data;

     for (auto &speaker : this_mixer->source_speakers_) {
       if (speaker->get_transfer_buffer().use_count() > 0) {
         std::shared_ptr<audio::AudioSourceTransferBuffer> transfer_buffer = speaker->get_transfer_buffer().lock();
         speaker->process_data_from_source(0);  // Transfers and ducks audio from source ring buffers

         if ((transfer_buffer->available() > 0) && !speaker->get_pause_state()) {
           // Store the locked transfer buffers in their own vector to avoid releasing ownership until after the loop
           transfer_buffers_with_data.push_back(transfer_buffer);
           speakers_with_data.push_back(speaker);
         }
       }
     }

     if (transfer_buffers_with_data.empty()) {
       // No audio available for transferring, block task temporarily
       delay(TASK_DELAY_MS);
       continue;
     }

     uint32_t frames_to_mix = output_frames_free;

     if ((transfer_buffers_with_data.size() == 1) || this_mixer->queue_mode_) {
       // Only one speaker has audio data, just copy samples over

       audio::AudioStreamInfo active_stream_info = speakers_with_data[0]->get_audio_stream_info();

       if (active_stream_info.get_sample_rate() ==
           this_mixer->output_speaker_->get_audio_stream_info().get_sample_rate()) {
         // Speaker's sample rate matches the output speaker's, copy directly

         const uint32_t frames_available_in_buffer =
             active_stream_info.bytes_to_frames(transfer_buffers_with_data[0]->available());
         frames_to_mix = std::min(frames_to_mix, frames_available_in_buffer);
         copy_frames(reinterpret_cast<int16_t *>(transfer_buffers_with_data[0]->get_buffer_start()), active_stream_info,
                     reinterpret_cast<int16_t *>(output_transfer_buffer->get_buffer_end()),
                     this_mixer->audio_stream_info_.value(), frames_to_mix);

         // Update source speaker buffer length
         transfer_buffers_with_data[0]->decrease_buffer_length(active_stream_info.frames_to_bytes(frames_to_mix));
         speakers_with_data[0]->accumulated_frames_read_ += frames_to_mix;

         // Add new audio duration to the source speaker pending playback
         speakers_with_data[0]->pending_playback_ms_ +=
             active_stream_info.frames_to_milliseconds_with_remainder(&speakers_with_data[0]->accumulated_frames_read_);

         // Update output transfer buffer length
         output_transfer_buffer->increase_buffer_length(
             this_mixer->audio_stream_info_.value().frames_to_bytes(frames_to_mix));
       } else {
         // Speaker's stream info doesn't match the output speaker's, so it's a new source speaker
         if (!this_mixer->output_speaker_->is_stopped()) {
           if (!sent_finished) {
             this_mixer->output_speaker_->finish();
             sent_finished = true;  // Avoid repeatedly sending the finish command
           }
         } else {
           // Speaker has finished writing the current audio, update the stream information and restart the speaker
           this_mixer->audio_stream_info_ =
               audio::AudioStreamInfo(active_stream_info.get_bits_per_sample(), this_mixer->output_channels_,
                                      active_stream_info.get_sample_rate());
           this_mixer->output_speaker_->set_audio_stream_info(this_mixer->audio_stream_info_.value());
           this_mixer->output_speaker_->start();
           sent_finished = false;
         }
       }
     } else {
       // Determine how many frames to mix
       for (int i = 0; i < transfer_buffers_with_data.size(); ++i) {
         const uint32_t frames_available_in_buffer =
             speakers_with_data[i]->get_audio_stream_info().bytes_to_frames(transfer_buffers_with_data[i]->available());
         frames_to_mix = std::min(frames_to_mix, frames_available_in_buffer);
       }
       int16_t *primary_buffer = reinterpret_cast<int16_t *>(transfer_buffers_with_data[0]->get_buffer_start());
       audio::AudioStreamInfo primary_stream_info = speakers_with_data[0]->get_audio_stream_info();

       // Mix two streams together
       for (int i = 1; i < transfer_buffers_with_data.size(); ++i) {
         mix_audio_samples(primary_buffer, primary_stream_info,
                           reinterpret_cast<int16_t *>(transfer_buffers_with_data[i]->get_buffer_start()),
                           speakers_with_data[i]->get_audio_stream_info(),
                           reinterpret_cast<int16_t *>(output_transfer_buffer->get_buffer_end()),
                           this_mixer->audio_stream_info_.value(), frames_to_mix);

         speakers_with_data[i]->pending_playback_ms_ +=
             speakers_with_data[i]->get_audio_stream_info().frames_to_milliseconds_with_remainder(
                 &speakers_with_data[i]->accumulated_frames_read_);

         if (i != transfer_buffers_with_data.size() - 1) {
           // Need to mix more streams together, point primary buffer and stream info to the already mixed output
           primary_buffer = reinterpret_cast<int16_t *>(output_transfer_buffer->get_buffer_end());
           primary_stream_info = this_mixer->audio_stream_info_.value();
         }
       }

       // Update source transfer buffer lengths and add new audio durations to the source speaker pending playbacks
       for (int i = 0; i < transfer_buffers_with_data.size(); ++i) {
         transfer_buffers_with_data[i]->decrease_buffer_length(
             speakers_with_data[i]->get_audio_stream_info().frames_to_bytes(frames_to_mix));
         speakers_with_data[i]->accumulated_frames_read_ += frames_to_mix;

         speakers_with_data[i]->pending_playback_ms_ +=
             speakers_with_data[i]->get_audio_stream_info().frames_to_milliseconds_with_remainder(
                 &speakers_with_data[i]->accumulated_frames_read_);
       }

       // Update output transfer buffer length
       output_transfer_buffer->increase_buffer_length(
           this_mixer->audio_stream_info_.value().frames_to_bytes(frames_to_mix));
     }
   }

   xEventGroupSetBits(this_mixer->event_group_, MixerEventGroupBits::STATE_STOPPING);

   output_transfer_buffer.reset();

   xEventGroupSetBits(this_mixer->event_group_, MixerEventGroupBits::STATE_STOPPED);
   this_mixer->task_created_ = false;
   vTaskDelete(nullptr);
 }

 }  // namespace mixer_speaker
 }  // namespace esphome

 #endif
esphome::optional::value
value_type const  & value() const
Definition: optional.h:89

esphome::mixer_speaker::MixerSpeaker::start_task_
esp_err_t start_task_()
Starts the mixer task after allocating memory for the task stack.
Definition: mixer_speaker.cpp:365

esphome::mixer_speaker::SourceSpeaker::parent_
MixerSpeaker * parent_
Definition: mixer_speaker.h:99

esphome::speaker::Speaker::state_
State state_
Definition: speaker.h:117

esphome::mixer_speaker::SourceSpeaker::set_volume
void set_volume(float volume) override
Volume state changes are passed to the parent&#39;s output speaker.
Definition: mixer_speaker.cpp:182

esphome::speaker::Speaker::mute_state_
bool mute_state_
Definition: speaker.h:120

esphome::mixer_speaker::MixerSpeaker::get_output_speaker
speaker::Speaker * get_output_speaker() const
Definition: mixer_speaker.h:146

esphome::mixer_speaker::MixerSpeaker::dump_config
void dump_config() override
Definition: mixer_speaker.cpp:291

esphome::mixer_speaker::MixerSpeaker
Definition: mixer_speaker.h:122

esphome::speaker::STATE_STOPPED
Definition: speaker.h:23

esphome::mixer_speaker::MixerSpeaker::source_speakers_
std::vector< SourceSpeaker * > source_speakers_
Definition: mixer_speaker.h:190

esphome::speaker::Speaker::set_volume
virtual void set_volume(float volume)
Definition: speaker.h:71

esphome::audio::AudioStreamInfo::get_channels
uint8_t get_channels() const
Definition: audio.h:29

esphome::mixer_speaker::SourceSpeaker::stop
void stop() override
Definition: mixer_speaker.cpp:159

esphome::mixer_speaker::SourceSpeaker::stop_
void stop_()
Definition: mixer_speaker.cpp:165

esphome::speaker::Speaker::add_audio_output_callback
void add_audio_output_callback(std::function< void(uint32_t, uint32_t, uint32_t, uint32_t)> &&callback)
Callback function for sending the duration of the audio written to the speaker since the last callbac...
Definition: speaker.h:112

esphome::mixer_speaker::COMMAND_STOP
Definition: mixer_speaker.cpp:36

esphome::mixer_speaker::MixerSpeaker::output_speaker_
speaker::Speaker * output_speaker_
Definition: mixer_speaker.h:191

esphome::mixer_speaker::SourceSpeaker::duck_samples
static void duck_samples(int16_t *input_buffer, uint32_t input_samples_to_duck, int8_t *current_ducking_db_reduction, uint32_t *ducking_transition_samples_remaining, uint32_t samples_per_ducking_step, int8_t db_change_per_ducking_step)
Ducks audio samples by a specified amount.
Definition: mixer_speaker.cpp:242

esphome::audio::AudioSinkTransferBuffer::create
static std::unique_ptr< AudioSinkTransferBuffer > create(size_t buffer_size)
Creates a new sink transfer buffer.
Definition: audio_transfer_buffer.cpp:12

esphome::mixer_speaker::MixerSpeaker::event_group_
EventGroupHandle_t event_group_
Definition: mixer_speaker.h:188

esphome::mixer_speaker::ALL_BITS
Definition: mixer_speaker.cpp:42

esphome::mixer_speaker::SourceSpeaker::transfer_buffer_
std::shared_ptr< audio::AudioSourceTransferBuffer > transfer_buffer_
Definition: mixer_speaker.h:101

esphome::mixer_speaker::SourceSpeaker::setup
void setup() override
Definition: mixer_speaker.cpp:55

esphome::mixer_speaker::MixerSpeaker::loop
void loop() override
Definition: mixer_speaker.cpp:306

esphome::mixer_speaker::SourceSpeaker::stop_gracefully_
bool stop_gracefully_
Definition: mixer_speaker.h:107

hal.h

esphome::mixer_speaker::SourceSpeaker::process_data_from_source
size_t process_data_from_source(TickType_t ticks_to_wait)
Transfers audio from the ring buffer into the transfer buffer.
Definition: mixer_speaker.cpp:189

esphome::audio::AudioStreamInfo::get_bits_per_sample
uint8_t get_bits_per_sample() const
Definition: audio.h:28

esphome::RAMAllocator::allocate
T * allocate(size_t n)
Definition: helpers.h:703

esphome::speaker::Speaker::finish
virtual void finish()
Definition: speaker.h:58

esphome::speaker::Speaker::get_mute_state
virtual bool get_mute_state()
Definition: speaker.h:93

esphome::mixer_speaker::SourceSpeaker::play
size_t play(const uint8_t *data, size_t length, TickType_t ticks_to_wait) override
Definition: mixer_speaker.cpp:116

esphome::optional::has_value
bool has_value() const
Definition: optional.h:87

esphome::audio::AudioStreamInfo::frames_to_milliseconds_with_remainder
uint32_t frames_to_milliseconds_with_remainder(uint32_t *frames) const
Computes the duration, in milliseconds, the given amount of frames represents.
Definition: audio.cpp:26

esphome::mixer_speaker::SourceSpeaker::accumulated_frames_read_
uint32_t accumulated_frames_read_
Definition: mixer_speaker.h:117

esphome::speaker::Speaker::audio_output_callback_
CallbackManager< void(uint32_t, uint32_t, uint32_t, uint32_t)> audio_output_callback_
Definition: speaker.h:126

esphome::speaker::Speaker::is_stopped
bool is_stopped() const
Definition: speaker.h:67

esphome::millis
uint32_t IRAM_ATTR HOT millis()
Definition: core.cpp:25

esphome::mixer_speaker::MixerSpeaker::setup
void setup() override
Definition: mixer_speaker.cpp:296

esphome::mixer_speaker::MixerSpeaker::task_created_
bool task_created_
Definition: mixer_speaker.h:197

esphome::mixer_speaker::SourceSpeaker::start
void start() override
Definition: mixer_speaker.cpp:131

esphome::audio::AudioStreamInfo
Definition: audio.h:11

esphome::mixer_speaker::SourceSpeaker::finish
void finish() override
Definition: mixer_speaker.cpp:169

esphome::audio::AudioStreamInfo::bytes_to_samples
uint32_t bytes_to_samples(size_t bytes) const
Convert bytes to samples.
Definition: audio.h:48

esphome::mixer_speaker::MixerSpeaker::stop
void stop()
Definition: mixer_speaker.cpp:414

esphome::mixer_speaker::SourceSpeaker::start_
esp_err_t start_()
Definition: mixer_speaker.cpp:133

esphome::speaker::Speaker::volume_
float volume_
Definition: speaker.h:119

esphome::mixer_speaker::MixerSpeaker::output_channels_
uint8_t output_channels_
Definition: mixer_speaker.h:193

esphome::mixer_speaker::MixerSpeaker::audio_mixer_task
static void audio_mixer_task(void *params)
Definition: mixer_speaker.cpp:467

esphome::speaker::Speaker::set_audio_stream_info
void set_audio_stream_info(const audio::AudioStreamInfo &audio_stream_info)
Definition: speaker.h:99

esphome::Component::status_set_error
void status_set_error(const char *message="unspecified")
Definition: component.cpp:159

esphome::mixer_speaker::SourceSpeaker::set_mute_state
void set_mute_state(bool mute_state) override
Mute state changes are passed to the parent&#39;s output speaker.
Definition: mixer_speaker.cpp:175

esphome::mixer_speaker::MixerSpeaker::copy_frames
static void copy_frames(const int16_t *input_buffer, audio::AudioStreamInfo input_stream_info, int16_t *output_buffer, audio::AudioStreamInfo output_stream_info, uint32_t frames_to_transfer)
Copies audio frames from the input buffer to the output buffer taking into account the number of chan...
Definition: mixer_speaker.cpp:416

esphome::mixer_speaker::SourceSpeaker::get_mute_state
bool get_mute_state() override
Definition: mixer_speaker.cpp:180

esphome::mixer_speaker::SourceSpeaker::get_volume
float get_volume() override
Definition: mixer_speaker.cpp:187

esphome::audio::AudioStreamInfo::frames_to_bytes
size_t frames_to_bytes(uint32_t frames) const
Converts frames to bytes.
Definition: audio.h:53

esphome::audio::AudioStreamInfo::ms_to_samples
uint32_t ms_to_samples(uint32_t ms) const
Converts duration to samples.
Definition: audio.h:68

esphome::mixer_speaker::STATE_STARTING
Definition: mixer_speaker.cpp:37

esphome::audio::AudioSourceTransferBuffer::create
static std::unique_ptr< AudioSourceTransferBuffer > create(size_t buffer_size)
Creates a new source transfer buffer.
Definition: audio_transfer_buffer.cpp:22

esphome::speaker::STATE_STARTING
Definition: speaker.h:24

esphome::audio::AudioStreamInfo::get_sample_rate
uint32_t get_sample_rate() const
Definition: audio.h:30

esphome::mixer_speaker::SourceSpeaker::timeout_ms_
optional< uint32_t > timeout_ms_
Definition: mixer_speaker.h:106

esphome::audio::AudioStreamInfo::ms_to_bytes
size_t ms_to_bytes(uint32_t ms) const
Converts duration to bytes.
Definition: audio.h:73

esphome::mixer_speaker::SourceSpeaker::buffer_duration_ms_
uint32_t buffer_duration_ms_
Definition: mixer_speaker.h:104

esphome::mixer_speaker::STATE_STOPPING
Definition: mixer_speaker.cpp:39

esphome::mixer_speaker::SourceSpeaker::pending_playback_ms_
uint32_t pending_playback_ms_
Definition: mixer_speaker.h:119

esphome::RAMAllocator::deallocate
void deallocate(T *p, size_t n)
Definition: helpers.h:741

esphome::mixer_speaker::STATE_STOPPED
Definition: mixer_speaker.cpp:40

esphome::mixer_speaker::SourceSpeaker::dump_config
void dump_config() override
Definition: mixer_speaker.cpp:45

esphome::mixer_speaker::SourceSpeaker::target_ducking_db_reduction_
int8_t target_ducking_db_reduction_
Definition: mixer_speaker.h:111

esphome::mixer_speaker::SourceSpeaker::samples_per_ducking_step_
uint32_t samples_per_ducking_step_
Definition: mixer_speaker.h:115

esphome::Component::status_clear_error
void status_clear_error()
Definition: component.cpp:174

esphome::mixer_speaker::STATE_RUNNING
Definition: mixer_speaker.cpp:38

esphome::speaker::Speaker::get_volume
virtual float get_volume()
Definition: speaker.h:79

esphome::mixer_speaker::MixerSpeaker::queue_mode_
bool queue_mode_
Definition: mixer_speaker.h:194

esphome::mixer_speaker::ERR_ESP_NO_MEM
Definition: mixer_speaker.cpp:41

esphome::speaker::STATE_STOPPING
Definition: speaker.h:26

esphome::speaker::Speaker::start
virtual void start()=0

esphome::Component::mark_failed
virtual void mark_failed()
Mark this component as failed.
Definition: component.cpp:118

esphome::mixer_speaker::SourceSpeaker::current_ducking_db_reduction_
int8_t current_ducking_db_reduction_
Definition: mixer_speaker.h:112

esphome::mixer_speaker::MixerSpeaker::start
esp_err_t start(audio::AudioStreamInfo &stream_info)
Starts the mixer task.
Definition: mixer_speaker.cpp:345

esphome::mixer_speaker::SourceSpeaker::ducking_transition_samples_remaining_
uint32_t ducking_transition_samples_remaining_
Definition: mixer_speaker.h:114

length
uint16_t length
Definition: tt21100.cpp:12

esphome::mixer_speaker::SourceSpeaker::db_change_per_ducking_step_
int8_t db_change_per_ducking_step_
Definition: mixer_speaker.h:113

esphome
Implementation of SPI Controller mode.
Definition: a01nyub.cpp:7

esphome::mixer_speaker::MixerSpeaker::mix_audio_samples
static void mix_audio_samples(const int16_t *primary_buffer, audio::AudioStreamInfo primary_stream_info, const int16_t *secondary_buffer, audio::AudioStreamInfo secondary_stream_info, int16_t *output_buffer, audio::AudioStreamInfo output_stream_info, uint32_t frames_to_mix)
Mixes the primary and secondary streams taking into account the number of channels in each stream...
Definition: mixer_speaker.cpp:439

mixer_speaker.h

esphome::mixer_speaker::MixerEventGroupBits
MixerEventGroupBits
Definition: mixer_speaker.cpp:35

esphome::mixer_speaker::MixerSpeaker::delete_task_
esp_err_t delete_task_()
If the task is stopped, it sets the task handle to the nullptr and deallocates its stack...
Definition: mixer_speaker.cpp:392

esphome::mixer_speaker::SourceSpeaker::last_seen_data_ms_
uint32_t last_seen_data_ms_
Definition: mixer_speaker.h:105

esphome::speaker::STATE_RUNNING
Definition: speaker.h:25

helpers.h

esphome::audio::AudioStreamInfo::bytes_to_frames
uint32_t bytes_to_frames(size_t bytes) const
Convert bytes to frames.
Definition: audio.h:43

esphome::mixer_speaker::SourceSpeaker::loop
void loop() override
Definition: mixer_speaker.cpp:66

esphome::mixer_speaker::SourceSpeaker::ring_buffer_
std::weak_ptr< RingBuffer > ring_buffer_
Definition: mixer_speaker.h:102

esphome::speaker::Speaker::get_audio_stream_info
audio::AudioStreamInfo & get_audio_stream_info()
Definition: speaker.h:103

log.h

esphome::RAMAllocator
An STL allocator that uses SPI or internal RAM.
Definition: helpers.h:683

esphome::RingBuffer::create
static std::unique_ptr< RingBuffer > create(size_t len)
Definition: ring_buffer.cpp:22

esphome::audio::scale_audio_samples
void scale_audio_samples(const int16_t *audio_samples, int16_t *output_buffer, int16_t scale_factor, size_t samples_to_scale)
Scales Q15 fixed point audio samples.
Definition: audio.cpp:57

esphome::mixer_speaker::SourceSpeaker::apply_ducking
void apply_ducking(uint8_t decibel_reduction, uint32_t duration)
Sets the ducking level for the source speaker.
Definition: mixer_speaker.cpp:211

esphome::speaker::Speaker::audio_stream_info_
audio::AudioStreamInfo audio_stream_info_
Definition: speaker.h:118

esphome::mixer_speaker::SourceSpeaker::has_buffered_data
bool has_buffered_data() const override
Definition: mixer_speaker.cpp:171

esphome::speaker::Speaker::set_mute_state
virtual void set_mute_state(bool mute_state)
Definition: speaker.h:81

esphome::delay
void IRAM_ATTR HOT delay(uint32_t ms)
Definition: core.cpp:26

esphome::mixer_speaker::MixerSpeaker::audio_stream_info_
optional< audio::AudioStreamInfo > audio_stream_info_
Definition: mixer_speaker.h:203

duration
uint8_t duration
Definition: msa3xx.h:430