今天在 Google 部落格上看到一篇文章:「 A picture is worth a thousand (coherent) words: building a natural description of images (一圖勝千言,建立照片的自然語言描述)」,裡面提到了 Google 正在研發一種「照片翻譯」技術,可以自動幫所有照片加上「文字字幕」,例如上傳一張烤披薩的照片, Google 自動幫這張照片加上「有兩張披薩放在火爐上烤」這樣的說明。
這個技術的流程很容易懂(當然,背後的技術就不是我們一般人可以理解的),當機器分析一張照片後,可以「看出」照片裡的元素,接著透過翻譯來「讀懂」照片的意義,把辨識出來的照片元素組合出有意義的語句,例如上圖中可以讀出「有一群人正在市場購物,水果攤上有很多的蔬菜」。
透過照片翻譯,自動幫照片加上字幕,這有什麼用途呢? Google 說一方面這可以幫助眼睛有障礙的朋友去讀出圖像上的意義,另外一方面,則可以強化圖片搜尋功能,幫我們找出需要的正確照片。
Google 提到這樣的技術還在發展中,目前還無法做到百分之百正確,下圖範例裡,可以看到左邊是正確的辨識結果,右邊則是有錯誤的翻譯結果,例如把一台黃色的轎車翻譯成黃色的校園巴士。
但是我覺得這樣的「照片翻譯」技術即使無法做到百分之百正確,但在實用上已經可以給我們帶來很大的助益。
就以一般人最常做的照片整理來看,如果我們自己要幫照片加上說明、關鍵字、分類,那要花多大的功夫與時間去做整理,而大多時候我們沒有這個力氣,於是很多照片就這樣「堆積」在哪邊,雖然擁有,卻無法有效利用。
而 Google 的照片翻譯,就可以幫這些照片做好自動整理,產生可以再次利用的價值。
或許上述 Google 照片的「語意翻譯」技術還不到可以正式推出,但 Google 會幫照片自動辨識內容、自動下關鍵字的功能,則在 2013 年就已經在「 Google 相簿」中實現。
根據我在電腦玩物中寫過的:「搜尋照片回憶?關鍵字辨識 Google 相簿照片圖中內容物 」一文教學,我後來整理照片也更加省事,但回憶、瀏覽、搜尋照片卻更加輕鬆。
就像我之前去義大利旅行,拍了三千多張照片,如果這時候我想看看自己拍過的威尼斯特色風景:貢多拉船的照片,我只要輸入「 gondola 」這個關鍵字, Google 就能自動幫我找出相片。
如果我想要回憶某一個地點,例如想跟朋友介紹羅馬競技場的風光,只要輸入「 Colosseum 」,那麼我在羅馬競技場拍過的照片都可以找回來。
最重要的是,我事先並沒有對這些照片手動加上任何文字說明,都是 Google 自動翻譯辨識的結果。
所以這就讓我現在整理相簿時更加輕鬆,義大利之旅的 3000 多張照片,我就簡單的依據義大利北中南三個區域(也是我旅行的前中後三個時間),分成三個相簿,然後各自把照片丟進去,接著不需要做任何整理。
因為我知道以後如果想要回憶某一個特殊地點、某一種特色景物、某一類當地食物,我都可以透過關鍵字搜尋來找出。
當然,這依然無法百分之百正確找到所有相片,可能有遺漏誤判,但是起碼當我有上萬張照片時,我依然只需要一個關鍵字搜尋,就能找到羅馬的照片在哪個相簿,或是在幾年幾月幾日搭乘威尼斯貢多拉船,而這時候只要依據相簿或時間去瀏覽即可。
這樣的照片自動翻譯功能,在我的工作上也有幫助。
我現在都用 Google Drive 直接線上做簡報、編輯文件,這時候如果需要圖庫,我會先在自己的相簿找,需要一張雲的照片,只要輸入「 Cloud 」,一樣可以在上萬張的個人相簿中,立刻挑出適合的照片內容。
這樣想想,比起以前我們需要一張照片時,還要進入資料夾東翻西找,一張一張照片打開來看,是不是快多了呢?
期待 Google 照片翻譯更成熟的一天,而如果你現在想要試試看,別忘了目前的「 Google 相簿」就能讓你體驗類似的功能囉!
This entry passed through the Full-Text RSS service - if this is your content and you're reading it on someone else's site, please read the FAQ at fivefilters.org/content-only/faq.php#publishers.