牛津大學聯合DeepMind發布LipNet:用深度學習讀懂你的唇語

作者:一一奇聞 目錄:科學探索  時間:2022-01-26 

  新的調查顯示 AI 能夠輕松戰勝人類,但還有很多工作要做。

  如何讀懂唇語對人類來說是一個難題,據數據顯示,大多數人平均只能讀對一句唇語的十分之一。唇讀很困難,不僅是因為你要觀察對方嘴唇、舌頭和牙齒的輕微運動,而且大多數唇語信號十分隱晦,難以在沒有語境的情況下分辨。

  現在,研究人員表示人工智能技術,比如深度學習或許能夠解決這個難題。人工智能側重于大數據運算,已經幫助改善了機器語音識別,甚至能達到人類的水平。那么機器學習技術是不是也能運用到讀懂人類的唇語上?

  據國外媒體報道,牛津大學人工智能實驗室、谷歌 DeepMind 團隊 和加拿大高等研究院(CIFAR)就在近日聯合發布了一篇論文,介紹了結合深度學習技術的唇讀程序 LipNet。在 GRID 語料庫上,LipNet 實現了 93.4% 的準確度,超過了經驗豐富的人類唇讀者和之前的 79.6% 的最佳準確度。研究人員還將 LipNet 的表現和聽覺受損的會讀唇的人的表現進行了比較。平均來看,他們可以達到 52.3% 的準確度,LipNet 在相同句子上的表現是這個成績的 1.78 倍。除此之外,該模型將可變長度的視頻序列轉換成文本的過程幾乎是實時的。

  不過,當你沉醉在科幻電影《2001: 太空漫游》里,幻想著像 Hall 一樣能讀懂人類唇語的飛船主控計算機出現之前,雷鋒網(公眾號:雷鋒網)小編必須要給你敲響一個警鐘——牛津大學的這一實驗很可能具有局限性。這一實驗首先是基于 GRID 語料庫完成的,這其中包含 34 個志愿者錄的短視頻,所有的視頻都長 3 秒,使用 DLib 面部檢測器和帶有 68 個 landmark 的 iBug 面部形狀預測器進行處理。每個句子都是以這樣的模式出現的:命令、顏色、介詞、字母、數字、副詞等。例如“set blue by A four please”或者 " place red at C zero again " 這樣的句式。由于這一模式下的詞句是有限的,只包含了四種不同的命令和顏色。這導致人工智能領域的一些專家認為,牛津大學這篇論文的研究結果被夸大了,尤其是當他們看到其中一位研究人員在接受采訪時煽情地表示這項成果意味著人們將“沒有秘密。”

  “事實并非如此,” 研究人員 Yannis Assael 和 Brendan Shillingford 在接受國外科技媒體 The Verge 采訪時說道,他們正在努力地突破“有限的詞匯和語法” 。Assael 表示,“現在的數據集雖小,但它卻是一個好的跡象,將來我們會使用更大的數據集執行任務。”

  除此之外,Yannis Assael 和 Brendan Shillingford 都在強調這一成果不會用于窺探他人的隱私。很簡單,因為唇讀需要看到對方的舌頭,所以你必須在光線很好的地方才能夠完成這一行為。“這在技術上來說是非常困難的。” Assael 表示,任何唇讀軟件都很難做到監視他人的地步,所以大家可以放心。而且幀率也是一個重要的因素。“除非你拿著一個技術很高的相機對準目標對象,同時還要舉著一個麥克風指向他。”

  相反,兩位研究者認為在深度學習的幫助下,這種唇讀方式可以幫助有聽力障礙的人,尤其是在嘈雜的環境中。例如在聚會上,LipNet 就可以錄制實時通話,并將信息清晰準確地送到人們的耳中。“只要你有語音識別和攝像頭,在任何地方都可以實現這項服務。” Assael 說。他還提到蘋果的 Siri 或谷歌語音助理或許也會用到這樣的技術。那么在未來,如果你不想親自和計算機對話,只要動動嘴巴它就能知道你在說什么了。

本文地址:https://www.www.wuyouwg.com/shougong/108052
本文標題:牛津大學聯合DeepMind發布LipNet:用深度學習讀懂你的唇語
版權聲明:本文為原創文章,版權歸 一一奇聞 所有,歡迎分享本文,轉載請保留出處!