首頁 » Posts

Visqol 論文探討

September 1, 2024 · 1 分鐘 · 88 字 · hcw | Suggest Changes

目錄

問題定義

響度損失問題: PESQ在處理信號響度顯著降低的情況時表現不佳。它可能無法準確反映由於響度降低而導致的感知質量下降。例如,在某些網絡傳輸或編碼過程中,音頻信號可能會經歷整體音量的減弱,而PESQ可能低估這種響度損失對聽眾感知的影響。
回聲問題: PESQ在評估含有回聲的音頻時存在局限性。它可能無法完全捕捉到回聲對語音質量的負面影響,特別是在回聲延遲較長或強度較低的情況下。這意味著PESQ可能會高估含有回聲的音頻的質量。
側音問題: 側音是指說話者通過耳機或電話聽筒聽到自己聲音的現象。PESQ在處理側音相關的質量問題時不夠敏感。它可能無法準確評估側音水平不適當(太強或太弱)對通話體驗的影響。

流程

graph LR P(Pre-Processing
1.Channel Selection
2.Remove 0 Padding
3.Build Spectrogram) A(Align
1.Define Patch
2.Match Patch by NSIM
3.Average NSIM Matrix) M(Mapping
1.Feed Averaged NSIM to SVR
2.Output MOS-LQO) P-->A A-->M

Preprocessing

Channel Selection：將左右聲道平均。
Remove 0 Padding：移除降值信號的前置緩衝區。
Build Spctrogram：將參考及降值信號總能量縮放為相同，使用32頻帶的Gammatone濾波器組做 STFT。

Align

Define Patch：由頻譜圖每30禎(frame)，32個頻帶(同Gammatone)組成
Match Patch by NSIM：固定參考信號 Patch，在降值信號上做 Sliding Window，並對每個Slide與固定的參考信號 Patch 取 NSIM
NSIM 為僅考慮亮度、結構，不考慮對比的 SSIM
最終最大化的平均 NSIM 為最佳匹配選取標準： $$s=\arg\max_{d}\overline{NSIM}(P,d)$$

Mapping

將最佳匹配的 NSIM 矩陣做縱向的平均，做為頻率尺度的處理。每一欄生成一個平均，這些平均組成一個一維向量。最後將多個一維向量 ($\Omega_i$) 平均得到 SVR 輸入。
SVR 是支援向量回歸，將 NSIM 得到的最終一維向量和學習資料集所標記的 q 分數 (MOS-LQO, 1~5) 做映射學習。 $$q=SVR(\frac{1}{M}\sum_{i=1}^M\Omega_i)$$
學習資料集：TCDaudio14, AACvOPUS15

優劣