智能語音系統(tǒng)的核心在于其能夠理解和生成自然語言的能力,這依賴于一系列復(fù)雜的技術(shù),包括語音識別、語音合成和自然語言處理技術(shù)。


智能語音


一、語音識別技術(shù)


聲學(xué)模型技術(shù):傳統(tǒng)聲學(xué)模型有隱馬爾可夫模型(HMM),如今深度神經(jīng)網(wǎng)絡(luò)(DNN)及其變體如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)中的長短期記憶網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元(GRU)應(yīng)用廣泛,可自動學(xué)習(xí)語音復(fù)雜特征提升準(zhǔn)確率。


語言模型技術(shù):n - 元語法(n - gram)模型基于單詞序列概率預(yù)測,神經(jīng)網(wǎng)絡(luò)語言模型如 Transformer 架構(gòu)能更好捕捉語義語法信息。


特征提取技術(shù):梅爾頻率倒譜系數(shù)(MFCC)模擬人耳感知提取語音關(guān)鍵特征,線性預(yù)測倒譜系數(shù)(LPCC)也較常用。


二、語音合成技術(shù)


基于規(guī)則合成法:早期依語音音素、音節(jié)等規(guī)則合成,自然度低。


拼接合成技術(shù):按規(guī)則拼接預(yù)錄語音片段成完整語音,需大量語音數(shù)據(jù)建庫。


參數(shù)合成技術(shù):提取語音參數(shù)如基頻、幅度等合成,統(tǒng)計(jì)參數(shù)語音合成(SPSS)和深度學(xué)習(xí)語音合成(如 Tacotron 系列模型)較先進(jìn),合成語音自然度高。


三、自然語言處理技術(shù)


詞法分析技術(shù):分詞將文本按規(guī)則分單詞,詞性標(biāo)注給單詞標(biāo)詞性助于理解語法結(jié)構(gòu)。


句法分析技術(shù):依存句法分析構(gòu)建依存樹確定句子成分關(guān)系理解語義。


語義理解技術(shù):語義角色標(biāo)注確定句子成分在事件角色,命名實(shí)體識別文本中人名、地名等實(shí)體理解主題內(nèi)容。


對話管理技術(shù):對話狀態(tài)跟蹤確定對話當(dāng)前狀態(tài),對話策略學(xué)習(xí)依狀態(tài)決定下一步對話策略。