第19頁
據說它最初是給音樂行業(yè)錄制小樣的,但是發(fā)行之后問津者寥寥。制作方一拍腦門,開了個腦洞:“我們不做音樂軟件,做虛擬歌姬?!庇纱耍跻粑磥碚Q生,虛擬偶像概念進入人們的視線。 謝晉說:“設計軟件框架的時候,我們對比了幾款竟品,其中最普及的是vocaliod和utau。它們的實現原理差不多,預先錄制人聲,對人聲排列組合,再加上音調,組成一支歌曲?!?/br> “我們扒了兩款軟件的框架,最后還是決定,放棄這種純機械式合成,改為仿生式的。也就是基于機器學習算法的AI軟件,我們把它命名為,電子聲帶?!?/br> “因為沒有先例,研發(fā)期非常困難,不過第一個版本出來之后,給了人相當大的驚喜。制作出來的成曲,最差也能達到歌姬級別?!彼c了一下鼠標,對樓清焰說,“董事長,來聽聽它說的第一句話吧?!?/br> 音響里傳出一個清朗的男聲。 “hello,world.” 樓清焰頓時發(fā)現:“這是我的聲音?” “這是大家投票決定的?!敝x晉揶揄地看過來。 不知為何,被點破心思之后,他反倒覺得樓清焰有點親切。 “還行,挺自然的?!?/br> “這是AI算法的功勞。”謝晉說,“我們設計了一種深度學習算法,軟件會對音源庫進行特征提取,用提取出來的特征信息進行訓練,最終,為每組音源庫生成獨一無二的數據模型?;谶@個模型,合成語音會自然許多?!?/br> “這還不是最理想的。最理想的那種合成語音,不用組合人聲,是憑借AI算法的高智能,憑空生成聲音。不過……” “不過你們沒這個技術?!睒乔逖嬲f。 他想了想,描述道:“聲音的本質是震動,在音響里就是膜片的震動,這種震動由電磁場引起,而電磁場的控制方式,是線圈通不通電。通電為1,不通電為0。” “所以,計算機聲音的本質是一串二進制數,是不同排列組合的1和0。這叫做數字信號?!?/br> “最理想的語音合成,不是組合音節(jié),而是直接組合數字信號。” 樓清焰:“我說的對嗎?!?/br> 謝晉實實在在地驚訝了。 他一直以為樓清焰是個不學無術的紈绔,就算所有人都搞懂了計算機原理,他也不可能搞懂的那種。 沒想到他真的懂。 樓清焰還沒說完,他繼而道:“理論上,AI軟件通過深度學習,可以掌握數字信號的規(guī)律,構建一個數據模型,再基于模型生成語音?!?/br> “但是,這需要一個大前提——機器學習算法能直接從數字層做特征提取?!?/br> 他問道:“能嗎?” 謝晉服了,這人為啥總是一下子問到最關鍵的地方。 “現在確實沒這個技術。我們設計的特征提取算法,主要瞄準聲音的波形表現,頻率、相位這些?!彼唵蔚卣f。 樓清焰又說:“不止缺這一個技術吧。做了特征提取,知道怎么歸納總結嗎?知道怎么訓練模型嗎?會寫算法嗎?設想過這個計算量有多龐大嗎?” 謝晉:“……” 樓清焰發(fā)覺有點說過了,遂拍拍他肩膀,鼓勵道:“不過你們已經做得很好了,能達到這個程度非常了不起……嗯,下一步工作是什么?” 謝晉:“……”看出來你是在敷衍了。 “軟件的構造有點臃腫,只有在工作站上才能流暢運行,下一步先考慮優(yōu)化問題?!?/br> “好的?!睒乔逖嬉簿褪请S口一問。 他不在意軟件本身,得知已經有了AI語音合成的雛形,他來這趟的目的就已經達成了。 謝晉研發(fā)的這款電子聲帶,其實還是提前錄制人聲,再進行排列組合。只不過基于AI算法訓練的數據模型,會對音頻波形進行修改,讓聲音變得流暢自然,更加真實。 這款軟件的局限性在于算法。音頻領域的特征提取沒有可參考前例,謝晉團隊必須把數字音頻研究透徹,然后基于其特性設計新算法——不僅是邏輯框架,還包括萬惡的數學模型。這可不是一朝一夕能搞出來的。 但是樓清焰呢,他腦子里有現成的。 在星際時代,聲音合成是一項非常普及的技術,宇宙人早就可以在編碼層面生成各種聲音,還出現了一種新職業(yè),叫音頻作家。 類比于文學作家,音頻作家就是直接創(chuàng)作廣播劇的那種。 聲音合成算法,是入門智械編程學習的一個啟蒙案例。可見它簡單到什么程度。在地球上也可以實現,條件是幾套新的數學模型,一臺大型計算機。 佳輝就有大型計算機,用作app服務器的,暫時關停服務器來計算軟件,好像也沒什么大不了的。 樓清焰只有一個人,不可能寫出一個完整的軟件,不過他有謝晉的代碼基礎,只要實現了那幾個數學模型,用大型計算機快速完成機器學習運算,就可以達成他的目的。 嗯,他只是想讓樓皓宸“說”幾句話而已。 謝晉不知道他老板正在醞釀多么黑暗的犯罪過程,他看著樓清焰,心里已經對他完全改觀了。 龍困淺灘,虎落平陽,卻顯得從容自若。落魄時不露難色,面對員工的消極嘲諷,姿態(tài)依舊那么強硬。他懂計算機,懂智能技術,并不是大家以為的那種不學無術的廢物。最重要的是,他竟然懂他的想法。