問題定義
- 響度損失問題: PESQ在處理信號響度顯著降低的情況時表現不佳。它可能無法準確反映由於響度降低而導致的感知質量下降。例如,在某些網絡傳輸或編碼過程中,音頻信號可能會經歷整體音量的減弱,而PESQ可能低估這種響度損失對聽眾感知的影響。
- 回聲問題: PESQ在評估含有回聲的音頻時存在局限性。它可能無法完全捕捉到回聲對語音質量的負面影響,特別是在回聲延遲較長或強度較低的情況下。這意味著PESQ可能會高估含有回聲的音頻的質量。
- 側音問題: 側音是指說話者通過耳機或電話聽筒聽到自己聲音的現象。PESQ在處理側音相關的質量問題時不夠敏感。它可能無法準確評估側音水平不適當(太強或太弱)對通話體驗的影響。
流程
graph LR
P(Pre-Processing
1.Channel Selection
2.Remove 0 Padding
3.Build Spectrogram) A(Align
1.Define Patch
2.Match Patch by NSIM
3.Average NSIM Matrix) M(Mapping
1.Feed Averaged NSIM to SVR
2.Output MOS-LQO) P-->A A-->M
1.Channel Selection
2.Remove 0 Padding
3.Build Spectrogram) A(Align
1.Define Patch
2.Match Patch by NSIM
3.Average NSIM Matrix) M(Mapping
1.Feed Averaged NSIM to SVR
2.Output MOS-LQO) P-->A A-->M
Preprocessing
- Channel Selection:將左右聲道平均。
- Remove 0 Padding:移除降值信號的前置緩衝區。
- Build Spctrogram:將參考及降值信號總能量縮放為相同,使用32頻帶的Gammatone濾波器組做 STFT。
Align
- Define Patch:由頻譜圖每30禎(frame),32個頻帶(同Gammatone)組成
- Match Patch by NSIM:固定參考信號 Patch,在降值信號上做 Sliding Window,並對每個Slide與固定的參考信號 Patch 取 NSIM
NSIM 為僅考慮亮度、結構,不考慮對比的 SSIM - 最終最大化的平均 NSIM 為最佳匹配選取標準: $$s=\arg\max_{d}\overline{NSIM}(P,d)$$
Mapping
- 將最佳匹配的 NSIM 矩陣做縱向的平均,做為頻率尺度的處理。每一欄生成一個平均,這些平均組成一個一維向量。最後將多個一維向量 ($\Omega_i$) 平均得到 SVR 輸入。
- SVR 是支援向量回歸,將 NSIM 得到的最終一維向量和學習資料集所標記的 q 分數 (MOS-LQO, 1~5) 做映射學習。 $$q=SVR(\frac{1}{M}\sum_{i=1}^M\Omega_i)$$
- 學習資料集:TCDaudio14, AACvOPUS15