• 知識庫
  • 0

語音信號處理中怎麼理解分幀,為什麼?

抽轉組91467c18:語音信號處理常常要達到的一個目標,就是弄清楚語音中各個頻率成分的分佈。做這件事情的數學工具是傅裡葉變換。傅裡葉變換要求輸入信號是平穩的,當然不平穩的信號你想硬做也可以,但得到的結果就沒有什麼意義瞭。而語音在宏觀上來看是不平穩的——你的嘴巴一動,信號的特征就變瞭。但是從微觀上來看,在比較短的時間內,嘴巴動得是沒有那麼快的,語音信號就可以看成平穩的,就可以截取出來做傅裡葉變換瞭。這就是為什麼語音信號要分幀處理,截取出來的一小段信號就叫一「幀」。如下圖:這段語音的前三分之一和後三分之二明顯不一樣,所以整體來看語音信號不平穩。紅框框出來的部分是一幀,在這一幀內部的信號可以看成平穩的。
那麼一幀有多長呢?幀長要滿足兩個條件:從宏觀上看,它必須足夠短來保證幀內信號是平穩的。前面說過,口型的變化是導致信號不平穩的原因,所以在一幀的期間內口型不能有明顯變化,即一幀的長度應當小於一個音素的長度。正常語速下,音素的持續時間大約是 50~200 毫秒,所以幀長一般取為小於 50 毫秒。從微觀上來看,它又必須包括足夠多的振動周期,因為傅裡葉變換是要分析頻率的,隻有重復足夠多次才能分析頻率。語音的基頻,男聲在 100 赫茲左右,女聲在 200 赫茲左右,換算成周期就是 10 毫秒和 5 毫秒。既然一幀要包含多個周期,所以一般取至少 20 毫秒。這樣,我們就知道瞭幀長一般取為 20 ~ 50 毫秒,20、25、30、40、50 都是比較常用的數值,甚至還有人用 32(在程序猿眼裡,這是一個比較「整」的數字)。
加窗的目的是讓一幀信號的幅度在兩端漸變到 0。漸變對傅裡葉變換有好處,可以提高變換結果(即頻譜)的分辨率,具體的數學就不講瞭。加窗的代價是一幀信號兩端的部分被削弱瞭,沒有像中央的部分那樣得到重視。彌補的辦法是,幀不要背靠背地截取,而是相互重疊一部分。相鄰兩幀的起始位置的時間差叫做幀移,常見的取法是取為幀長的一半,或者固定取為 10 毫秒。
頻譜上就能看出這幀語音在 480 和 580 赫茲附近的能量比較強。語音的頻譜,常常呈現出「精細結構」和「包絡」兩種模式。「精細結構」就是藍線上的一個個小峰,它們在橫軸上的間距就是基頻,它體現瞭語音的音高——峰越稀疏,基頻越高,音高也越高。「包絡」則是連接這些小峰峰頂的平滑曲線(紅線),它代表瞭口型,即發的是哪個音。包絡上的峰叫共振峰,圖中能看出四個,分別在 500、1700、2450、3800 赫茲附近。有經驗的人,根據共振峰的位置,就能看出發的是什麼音。對每一幀信號都做這樣的傅裡葉變換,就可以知道音高和口型隨時間的變化情況,也就能識別出一句話說的是什麼瞭。

語音信號處理中怎麼理解分幀,為什麼?-圖1

三世無緣f7:在對語音信號進行分析和處理之前,必須對其進行預加重、分幀、加窗等預處理操作。這些操作的目的是消除因為人類發聲器官本身和由於采集語音信號的設備所帶來的混疊、高次諧波失真、高頻等等因素,對語音信號質量的影響。盡可能保證後續語音處理得到的信號更均勻、平滑,為信號參數提取提供優質的參數,提高語音處理質量。
分幀貫穿於語音分析全過程的是“短時分析技術”。語音信號具有時變特性,但是在一個短時間范圍內(一般認為在10~30ms的短時間內),其特性基本保持不變即相對穩定,因而可以將其看作是一個準穩態過程,即語音信號具有短時平穩性。所以任何語音信號的分析和處理必須建立在“短時”的基礎上,即進行“短時分析”,將語音信號分段來分析其特征參數,其中每一段稱為一“幀”,幀長一般取為10~30ms。這樣,對於整體的語音信號來講,分析出的是由每一幀特征參數組成的特征參數時間序列。

語音信號處理中怎麼理解分幀,為什麼?-圖2

以心sirue93bd:語音屬於準穩態信號,即短時平穩。這個短時長一般為10-30ms,因此在進行語音信號處理時,為減少語音信號整體的非穩態、時變的影響,從而對信號進行分幀處理。
針對語音數據的頻譜分析視圖,叫語譜圖。語譜圖的橫坐標是時間,縱坐標是頻率,坐標點值為語音數據能量。由於是采用二維平面表達三維信息,所以能量值的大小是通過顏色來表示的,顏色深,表示該點的語音能量越強。窄帶語譜圖有良好的頻率分辨率及較差的時間分辨率;而寬帶語譜圖具有良好的時間分辨率及較差的頻率分辨率。窄帶語譜圖中的時間坐標方向表示的是基音及各次諧波;而寬帶語譜圖給出的共振峰頻率及清輔音的能量匯集區。語譜圖上不同的黑白程度形成不同的紋路,我們稱為“聲紋”。條紋的地方實際是顏色深的點聚集的地方,隨時間延續,就延長成條紋,也就是表示語音中頻率值為該點橫坐標值的能量較強,在整個語音中所占比重大,那麼相應影響人感知的效果要強烈得多。

語音信號處理中怎麼理解分幀,為什麼?-圖3

您可能也會喜歡…

發佈留言