人類能與機器無障礙地溝通,已經不是新聞。廿年前,我們第一次見到星艦迷航記企業號(StarshipEnterprise)裡的史帕克(Spock)先生對著艦上的電腦發號施令;還有經典電影《2001太空漫遊》(2001: A Space Odyssey)裡那部聲音輕柔的超級電腦HAL,它在今日許多科技先鋒都尚未出生之前,就已經可以解讀小組成員的話語。
現今,許多科幻小說裡大眾熟悉的情節都已經進入「科學實證」的軌道之中。從六○年代開始,語音辨識技術就已被深入地研究,後來IBM在1984年帶給世人第一部語音控制的輸入系統,此時辨識出一個字需要好幾分鐘的時間。這項科技持續到1994年,第一套市售語音輸入軟體以1,000歐元的價格上市。四年之後,BMW在新大7系列房車上引進了首套語音控制系統。
語音控制的可用辭彙依然受到相當大的限制,只有電話可以透過語音來操控。雖然如此,BMW的語音輸入系統依然在舒適度與安全性上奠定一個新里程碑。因為這是BMW駕駛第一次在使用車內電話時,完全不需要將手離開方向盤,也毋需將視線從道路上移開,駕駛只要說出電話號碼,系統就會自動撥號。此系統同時搭配備忘錄記憶功能,可將駕駛曾下過的指示自動紀錄下來。到了這個階段,語音辨識以及聲控科技的技術開始突飛猛進。打電話到銀行的客服中心、或是查詢時刻表時,聽到電腦語音的問候與指示已經逐漸普遍;行動電話也已經可以透過語音來撥號;同時個人電腦也可以藉由語音辨識軟體,將人聲讀出的文字轉換成電腦上的文字格式。車用語音辨識系統的運作模式大致也是如此,為獲得最佳的聲音品質,在車頂襯裡裝置一個小型麥克風,然後將語音指令傳送到聲音辨識組件,轉換成電子訊號後,再傳送到導航系統或車用行動電話。
經過多年來的努力,BMW語音辨識系統的可用辭彙與初始版本相比增加超過百倍,針對不同的車款規格,包括通訊錄、廣播、CD、DVD、電話與導航系統皆能透過語音來完成功能操作,這種操作方式和iDrive控制鈕的設計有異曲同工之妙。系統支援的語言包括德語、美語、英語、義大利語、西班牙語以及法語,而日本語、荷蘭語等其他語言也都在開發之中。
現在語音辨識系統面臨了一個技術上的重大挑戰,特別是在車用系統方面。一般的辨識系統只需在周遭環境沒有過多的干擾噪音下,熟悉使用者的聲音指令即可;然而車上的辨識系統則必須適應每位不同的駕駛,不論是年輕人、老年人、男性或女性,甚至會遇到鼻塞和沙啞的聲音,以及來自各地的口音。
為了解析出聲音與發音的細微刻度,一輛裝配了最新錄音與電腦科技的BMW 3系列被送往德國各個城市,在高速公路與鄉間道路上進行測試,這個任務是歐洲車內語音資料計畫(European SpeechDat-Car project)的一部分。140個語音指令與關鍵字透過300位男女各半、從18歲到77歲的人,經由裝置在車上的麥克風錄下,提供了下一代語音科技的研究基礎資料。
在語音儲存的過程裡,每個字詞都被數位化,並被拆解成一段段稱為音素(phoneme)的資料,儲存在微小的組件之中。當語音操作系統聽到指令如:「撥號」,系統便會比對儲存在聲音資料庫中的音素與聲紋頻率,進行辨識並執行這項指令。
錄製與儲存眾多不同的聲音與口音,是為了提升語音辨識的整體效能,並且逐步改善聲音過濾軟體。聲音過濾軟體可以清除背景噪音,在聲控科技上扮演著重要角色,畢竟人與機器之間良好的溝通,必須建立在沒有噪音干擾的狀態之下。這些聲音過濾軟體已經先進到即便在敞篷車中,語音辨識系統照樣可以運行無礙。在理想的狀況下,系統可以辨識出超過95%的語音指令。
雖然聲控科技進步神速,但駕駛仍然只能使用預先設定好的語音指令。電腦對於像駕駛與乘客之間的日常對話,依然是一籌莫展,至少現在還不行。來自BMW研究與科技公司(BMW Forschung und Technik GmbH)的專家,目前正致力於一個更遠大的躍進技術「關鍵詞辨識」(wordspotting)。「系統是從語句資訊中過濾出重要的關鍵字詞,同時刪除掉無用的贅言,」BMW人機介面管理計劃(MMI)主持人克勞斯.班格勒博士(Dr.KlausBengler)解釋道,「此外,這個系統也會不斷地詢問問題,直到獲得執行指令所需的資料為止。」
對駕駛而言,最大的優點就是可以輕鬆愉快地與愛車交談,讓人與車之間的溝通變得更輕鬆。這項科技的最終目標是創造出一位虛擬副駕駛,以分擔駕駛的壓力,並扮演資訊提供者的角色。未來語音辨識系統將不會被「我想要順路到哈洛蓋特的第十二號查普曼廣場」這樣的要求而難倒。不僅如此,系統更可以判讀出「我需要飛往曼徹斯特的航班資料」這句話的意義,而能立即提供航班的起飛時刻、登機門以及航班代號。另外,系統甚至可以正確解讀「我的腳很冷」,而直接於駕駛的腳部空間送出更多的暖氣。
將來BMW在人車溝通的介面上,不僅要提升語言的解釋能力,更致力於攝影系統的連結,紀錄駕駛的手勢及面部表情等資訊,期望能用最少的問題使誤解降至最小。「大部分的人會以點頭表達同意、搖頭表示不同意,」班格勒博士說道,「當系統無法理解駕駛的口語指示時,肢體語言則有助於系統的正確推斷。」系統可以評斷出駕駛愉悅的神情,或是憤怒的表情,同時也會一邊注意著駕駛手部的動作,這代表著駕駛可透過簡單的手指動作來操作CD音響。所謂的「多型態(Multimodal)」就是專家們採用多種不同反應,藉此提升理解能力。
目前正在測試階段的系統已可以透過判讀唇語,而辨識出正確合理的數字,未來則會進步到藉由讀唇,即可解釋使用者的需求。現在,如史帕克先生一般熱愛科技的人們,肯定熱切地注視著後視鏡探望未來。
|