問題定義

  1. 響度損失問題: PESQ在處理信號響度顯著降低的情況時表現不佳。它可能無法準確反映由於響度降低而導致的感知質量下降。例如,在某些網絡傳輸或編碼過程中,音頻信號可能會經歷整體音量的減弱,而PESQ可能低估這種響度損失對聽眾感知的影響。
  2. 回聲問題: PESQ在評估含有回聲的音頻時存在局限性。它可能無法完全捕捉到回聲對語音質量的負面影響,特別是在回聲延遲較長或強度較低的情況下。這意味著PESQ可能會高估含有回聲的音頻的質量。
  3. 側音問題: 側音是指說話者通過耳機或電話聽筒聽到自己聲音的現象。PESQ在處理側音相關的質量問題時不夠敏感。它可能無法準確評估側音水平不適當(太強或太弱)對通話體驗的影響。

流程

graph LR P(Pre-Processing
1.Channel Selection
2.Remove 0 Padding
3.Build Spectrogram) A(Align
1.Define Patch
2.Match Patch by NSIM
3.Average NSIM Matrix) M(Mapping
1.Feed Averaged NSIM to SVR
2.Output MOS-LQO) P-->A A-->M

Preprocessing

  1. Channel Selection:將左右聲道平均。
  2. Remove 0 Padding:移除降值信號的前置緩衝區。
  3. Build Spctrogram:將參考及降值信號總能量縮放為相同,使用32頻帶的Gammatone濾波器組做 STFT。

Align

  1. Define Patch:由頻譜圖每30禎(frame),32個頻帶(同Gammatone)組成
  2. Match Patch by NSIM:固定參考信號 Patch,在降值信號上做 Sliding Window,並對每個Slide與固定的參考信號 Patch 取 NSIM
    NSIM 為僅考慮亮度、結構,不考慮對比的 SSIM
  3. 最終最大化的平均 NSIM 為最佳匹配選取標準: $$s=\arg\max_{d}\overline{NSIM}(P,d)$$

Mapping

  1. 將最佳匹配的 NSIM 矩陣做縱向的平均,做為頻率尺度的處理。每一欄生成一個平均,這些平均組成一個一維向量。最後將多個一維向量 ($\Omega_i$) 平均得到 SVR 輸入。
  2. SVR 是支援向量回歸,將 NSIM 得到的最終一維向量和學習資料集所標記的 q 分數 (MOS-LQO, 1~5) 做映射學習。 $$q=SVR(\frac{1}{M}\sum_{i=1}^M\Omega_i)$$
  3. 學習資料集:TCDaudio14, AACvOPUS15

優劣