BMW e-News

2007-03-26 第 012 期 │ 訂閱 / 取消電子報

人類能與機器無障礙地溝通，已經不是新聞。廿年前，我們第一次見到星艦迷航記企業號(StarshipEnterprise)裡的史帕克(Spock)先生對著艦上的電腦發號施令；還有經典電影《2001太空漫遊》(2001: A Space Odyssey)裡那部聲音輕柔的超級電腦HAL，它在今日許多科技先鋒都尚未出生之前，就已經可以解讀小組成員的話語。

現今，許多科幻小說裡大眾熟悉的情節都已經進入「科學實證」的軌道之中。從六○年代開始，語音辨識技術就已被深入地研究，後來IBM在1984年帶給世人第一部語音控制的輸入系統，此時辨識出一個字需要好幾分鐘的時間。這項科技持續到1994年，第一套市售語音輸入軟體以1,000歐元的價格上市。四年之後，BMW在新大7系列房車上引進了首套語音控制系統。

語音控制的可用辭彙依然受到相當大的限制，只有電話可以透過語音來操控。雖然如此，BMW的語音輸入系統依然在舒適度與安全性上奠定一個新里程碑。因為這是BMW駕駛第一次在使用車內電話時，完全不需要將手離開方向盤，也毋需將視線從道路上移開，駕駛只要說出電話號碼，系統就會自動撥號。此系統同時搭配備忘錄記憶功能，可將駕駛曾下過的指示自動紀錄下來。到了這個階段，語音辨識以及聲控科技的技術開始突飛猛進。打電話到銀行的客服中心、或是查詢時刻表時，聽到電腦語音的問候與指示已經逐漸普遍；行動電話也已經可以透過語音來撥號；同時個人電腦也可以藉由語音辨識軟體，將人聲讀出的文字轉換成電腦上的文字格式。車用語音辨識系統的運作模式大致也是如此，為獲得最佳的聲音品質，在車頂襯裡裝置一個小型麥克風，然後將語音指令傳送到聲音辨識組件，轉換成電子訊號後，再傳送到導航系統或車用行動電話。

經過多年來的努力，BMW語音辨識系統的可用辭彙與初始版本相比增加超過百倍，針對不同的車款規格，包括通訊錄、廣播、CD、DVD、電話與導航系統皆能透過語音來完成功能操作，這種操作方式和iDrive控制鈕的設計有異曲同工之妙。系統支援的語言包括德語、美語、英語、義大利語、西班牙語以及法語，而日本語、荷蘭語等其他語言也都在開發之中。

現在語音辨識系統面臨了一個技術上的重大挑戰，特別是在車用系統方面。一般的辨識系統只需在周遭環境沒有過多的干擾噪音下，熟悉使用者的聲音指令即可；然而車上的辨識系統則必須適應每位不同的駕駛，不論是年輕人、老年人、男性或女性，甚至會遇到鼻塞和沙啞的聲音，以及來自各地的口音。

為了解析出聲音與發音的細微刻度，一輛裝配了最新錄音與電腦科技的BMW 3系列被送往德國各個城市，在高速公路與鄉間道路上進行測試，這個任務是歐洲車內語音資料計畫(European SpeechDat-Car project)的一部分。140個語音指令與關鍵字透過300位男女各半、從18歲到77歲的人，經由裝置在車上的麥克風錄下，提供了下一代語音科技的研究基礎資料。

在語音儲存的過程裡，每個字詞都被數位化，並被拆解成一段段稱為音素(phoneme)的資料，儲存在微小的組件之中。當語音操作系統聽到指令如：「撥號」，系統便會比對儲存在聲音資料庫中的音素與聲紋頻率，進行辨識並執行這項指令。

錄製與儲存眾多不同的聲音與口音，是為了提升語音辨識的整體效能，並且逐步改善聲音過濾軟體。聲音過濾軟體可以清除背景噪音，在聲控科技上扮演著重要角色，畢竟人與機器之間良好的溝通，必須建立在沒有噪音干擾的狀態之下。這些聲音過濾軟體已經先進到即便在敞篷車中，語音辨識系統照樣可以運行無礙。在理想的狀況下，系統可以辨識出超過95%的語音指令。

雖然聲控科技進步神速，但駕駛仍然只能使用預先設定好的語音指令。電腦對於像駕駛與乘客之間的日常對話，依然是一籌莫展，至少現在還不行。來自BMW研究與科技公司(BMW Forschung und Technik GmbH)的專家，目前正致力於一個更遠大的躍進技術「關鍵詞辨識」(wordspotting)。「系統是從語句資訊中過濾出重要的關鍵字詞，同時刪除掉無用的贅言，」BMW人機介面管理計劃(MMI)主持人克勞斯．班格勒博士(Dr.KlausBengler)解釋道，「此外，這個系統也會不斷地詢問問題，直到獲得執行指令所需的資料為止。」

對駕駛而言，最大的優點就是可以輕鬆愉快地與愛車交談，讓人與車之間的溝通變得更輕鬆。這項科技的最終目標是創造出一位虛擬副駕駛，以分擔駕駛的壓力，並扮演資訊提供者的角色。未來語音辨識系統將不會被「我想要順路到哈洛蓋特的第十二號查普曼廣場」這樣的要求而難倒。不僅如此，系統更可以判讀出「我需要飛往曼徹斯特的航班資料」這句話的意義，而能立即提供航班的起飛時刻、登機門以及航班代號。另外，系統甚至可以正確解讀「我的腳很冷」，而直接於駕駛的腳部空間送出更多的暖氣。

將來BMW在人車溝通的介面上，不僅要提升語言的解釋能力，更致力於攝影系統的連結，紀錄駕駛的手勢及面部表情等資訊，期望能用最少的問題使誤解降至最小。「大部分的人會以點頭表達同意、搖頭表示不同意，」班格勒博士說道，「當系統無法理解駕駛的口語指示時，肢體語言則有助於系統的正確推斷。」系統可以評斷出駕駛愉悅的神情，或是憤怒的表情，同時也會一邊注意著駕駛手部的動作，這代表著駕駛可透過簡單的手指動作來操作CD音響。所謂的「多型態(Multimodal)」就是專家們採用多種不同反應，藉此提升理解能力。

目前正在測試階段的系統已可以透過判讀唇語，而辨識出正確合理的數字，未來則會進步到藉由讀唇，即可解釋使用者的需求。現在，如史帕克先生一般熱愛科技的人們，肯定熱切地注視著後視鏡探望未來。

Home