長期以來,Meta 秉持開放且負責的態度,持續推動 AI 技術的發展,分享各類論文、程式碼、模型等內容。今日,Meta 歡慶其基礎 AI 研究團隊(FAIR)成立十週年,並公布於 AI 領域的最新突破,包含兼具第一人稱及外部視角的 AI 模型 Ego-Exo4D、語音生成模型 Audiobox,以及翻譯模型 Seamless Communication。
Meta 基礎 AI 研究團隊的最新進展
過去十年中,Meta 於各類 AI 領域取得重大進展:研發出可辨識圖像中個別單一物體的 Segment Anything 技術、建立在不仰賴英文的前提下翻譯 100 種語言的 NLLB(No Language Left Behind 絕不拋下任何語言)模型,且近期將「文字轉語音」及「語音轉文字」技術擴展至逾 1,000 種語言、發布開放且可預先訓練的大型語言模型 Llama 後,接著推出可供免費用於研究與商用的 Llama 2 ,以及在 Connect 大會上,介紹已開放給數百萬大眾使用的全新 AI 產品與體驗。以下將分享 Meta 基礎 AI 研究團隊的最新進展:
- 賦予 AI 第一人稱與外部的雙重視角
為教導 AI 模擬以人類的視角辨識事物,Meta 改良 Ego-Exo 技術,研發出可同時捕捉穿戴者第一人稱(以主角為自我中心)視角,及穿戴者四周的外部(旁觀的、非以主角為自我中心的)視角的 Ego-Exo4D 技術,在兩個視角的結合下,AI 模型能透過更完整的環境資訊,充分理解人類的所見所聞。未來,這項 AI 創新技術可結合智慧眼鏡,讓虛擬 AI 教練透過教學影片,引導觀看者快速學習新技能,像是觀看技術人員修理機器的操作過程,並將指導步驟與自身動作進行比對。
- Audiobox 助力生成語音及音效
2023 年初,Meta 發布生成式 AI 模型 Voicebox,協助語音編輯、樣本採集及語音風格塑造,而更新版的 Audiobox 進一步升級生成式 AI 技術,使用者可藉由語音指令或文字說明描述欲生成的聲音或語音類型,例如:利用文字「潺潺的溪水與鳥鳴」即可建立配樂、以口頭描述「一名年輕女性以高音及快速的語調說話」來產出語音,讓客製化音訊的打造更加輕鬆。
- 解鎖無隔閡語言翻譯
以 SeamlessM4T 技術為基礎,新推出的翻譯模型 Seamless Communication 在跨語言表現上更忠實地呈現原意,並能達到同步翻譯的效果。既有的翻譯服務往往難以捕捉協助人們傳達目的與情緒的重要訊號,如語調、停頓與抑揚頓挫等,SeamlessExpressive 是第一個開放且可生動地跨語言溝通的系統,模型將保留講者的情緒與風格,並分析說話速度及節奏,目前支援英文、西班牙文、德文、法文、義大利文及中文;不同於傳統的逐句翻譯,SeamlessStreaming 功能則可更即時、高效地翻譯,在講者說話時即時翻譯,使資訊傳達更有效率。
Meta 具備獨特的優勢以迎擊 AI 領域的艱鉅挑戰,透過在軟硬體與基礎設施架構上投注的大量心力,並從中擷取研究知識應用於產品中,以造福數十億人類。基礎 AI 研究團隊(FAIR)是 Meta 成功的關鍵,也是世上少數具備所有突破性成功要素的團隊,集結業界一流人才、擁有開放式文化,更重要的是具備探索性研究的自由,使他們能以靈活的姿態,為構建社會連結的未來貢獻心力。
負責任的 AI 研究
Meta 非常重視負責任地研究 AI 及開放性,在同業的嚴格審視下發表考量周全的應用,有助於 Meta 更卓越地發展,在創新技術上贏得信賴,並與廣泛的社群合作,從而加速科技進展及吸引更多元的協作者。