文/蘇元和
AI人工智慧發展浪潮,深偽(Deepfake)技術日趨成熟,ChatGPT席捲全球,變造「不存在的訊息」更容易且快速,使得生成式AI假訊息、假影片日漸氾濫,嚴重威脅社會安定、國家安全及民主政治。
尤其2024年總統大選期間,從民眾黨總統參選人柯文哲的造假錄音檔,到民進黨總統參選人賴清德的造假影片,顯示AI假影音已衝擊公民自由討論公共事務、參與政治的場域。因此,提升網路資訊的識讀能力,除了是公部門日益關切的焦點之外,更是社會大眾、每一位公民應具備的媒體素養。
以下是專訪投入語音技術研究逾30年、生成語音偵測逾10年的中研院資訊科學研究所研究員王新民教授的重點摘要內容。
《全民查假會社》問(以下簡稱問):選舉已落幕,請問選舉期間出現偽造影片或音檔,可從哪幾個面向來判別易被偽造,譬如嘴型、聲音等特徵(破綻)?
王新民答(以下簡稱答):我將聲音跟影像分開來講。先從影像談起,影像種類很多,實在很難一下子就全數說得清楚。但是有三個面向值得關注,首先,如果這個影像完全是合成的,你會發現很多細節有問題,譬如以現在的技術可能連人臉的五官、眼球大小都不太對稱,頭髮看起來不太自然。另外,還有一些物體表面不夠光滑平整,或者過度光滑平整,總之就是不太自然。再者,連光線陰影也可能都不太合理。
但是生成技術一步步往前推進,也許半年或一年後,更新的技術就能解決以上提到的不合理的現象與破綻。無論是用換臉技術或是整個人都是生成AI製造,多少都會有以上的這些問題。
此外,聲音部分有可能是從頭到尾完全合成;或先錄音後、用轉換技術改成另一個人的聲音;也可能只有局部剪接或局部合成,像當時總統參選人的賴清德訪談影片被篡改,就可能是透過剪接又合成偽造的。
舉例來說,將語音檔內「要」這個字變成「不要」,就會牽涉到一些合成技巧。以目前的技術,合成出來的聲音,一般人還是聽得出跟自然說話不同,但現在很多人已經習慣聽網路影片的合成聲音,因此不會刻意去分辨真假。
總之,目前合成聲音還是可以分辨得出來,不管用合成還是轉換,聲音不夠自然、不夠流暢、或過於流暢沒有停頓,像我們訪談過程中,我會不自然地斷句、停頓,因為我邊想邊講。但是,合成聲音太流暢,沒有停頓、思考,或是停頓不自然,這些都是偽造的蛛絲馬跡。
問:面對真假難辨的AI影(音)像,有哪些關鍵的辨識技巧與方法,可提供民眾簡易查證或判斷?
答:我認為一般民眾用手機看影片是較難識讀的,因為手機畫面很小、解析度低,且現在很多假影片,包括從手機看的抖音,因為你看不到細節,很容易被偽造影片欺騙。
反之,高解析度的影片其實很難作假,高解析度影片通常會注意到五官是否對稱、兩眼瞳孔大小是否一致、頭髮是否跟正規的電影或新聞影片一樣真實精細。
如果是假影片就無法做到那麼精細;另外還有光線、陰影等都是目前技術很難克服去偽造出逼真的部分。但是,在低解析度的小影片或手機上比較不容易區分真假。
聲音其實也是一樣,如果直接從手機的喇叭播放,你可能會覺得好像聽得懂就可以,不會去意識這個聲音是合成的,不是真實的。
如果你用家裡的高級喇叭或監聽喇叭,或戴上耳機聽,可能較能分辨音質太差或太假。這是根據聲音品質的一些基本判斷。另外還有其它重要的判斷,比方我們不能因為聲音是合成的,就認為資訊是假的,或者這個影像是合成的,就認為它是假的。這就如同動畫加上配音,你不能說它(內容)是假的,因為它可能帶來的是正面的訊息,所以訊息本身其實也重要,因此判斷一支真假影片就可從「影像」、「聲音」及「內容」多個面向判讀。
比如說,賴清德的偽造聲音的影片,顯然你上網稍加查證就會發現在原始採訪影片中他根本不是這樣講的。因此,判別的第一步就是去溯源原始影片,再與可疑影片對比一下,就可以找出破綻點。
影音一(下)是偽造影片
影音二(上)為原始受訪影片
至於社會大眾如何初步判斷,方法就是根據我上述內容,從影像上有沒有一些不太真實的蛛絲馬跡,或者聲音聽起來不太自然,或者停頓語氣、情緒,是不是聽起來都不太自然、太過平鋪直敘,講話完全沒有抑揚頓挫,這些都是合成技術偽造的線索,但這並不表示資訊一定是假的。至於內容上的真假,我認為需要公民培養批判思考的能力,還有一些媒體判讀的能力。
問:深度偽造影音氾濫且影響政治場域與網路世界的正常運作,請問建置一個深度偽造的內容、聲音、影像等,是否常混合部分「真實」,也就是「半真半假」?其背後手法又是什麼?
答:影片常見的半真半假的理由應該是更容易騙人。也就是說,如果從頭到尾都是合成的影片,被一眼就看穿的機率很大。但是,譬如說你的技術是把某一個人P到一個場景裡面去,或者你把某一段話做一個局部的篡改,這個大多數深度偽造比較容易做到。
聲音的偽造也不是現在才有的,以前就有,比如說電話錄音被篡改。聲音變造也不一定都是像現在的詐騙那麼負面,舉例很多偶像歌手根本不會唱歌,但他的CD是在錄音室裡錄完之後,錄音師幫忙剪輯修飾出來的。你要說那不是他唱歌的聲音嗎?當然是他唱歌的聲音,但他原來音感Pitch不準,錄音師幫他調過,讓民眾聽起來歌手唱的是準的。但你叫他唱現場,他可能連Key都抓不到。這種篡改其實就是真真假假、半真半假,這個就是從幾十年前就有的技術了。
現在就是用更方便的工具,用人工智慧的模型工具去做,讓偽造的聲音更容易製造,或者聲音變得更容易篡改,你要改肯定變否定,否定變肯定,或者語氣的變化,從平和變成聽起來很生氣,或者聽起來好像在揶揄你,不以為然的那種語氣在講話,這些都可以做得到。
尤其是現在如果刻意篡改的話,自動技術也許做到一半,另一部分還可以靠人工去修,就像錄音師修CD錄音一樣的。至少可以先用自動模型做到一定的程度,然後再經過人工去修,就可以把它修得讓你很難聽得出來它是假的。
臉部替換技術也是一樣,技術可以做到講話的時候,本來是很嚴肅講事情,深度偽造工具可修飾他的眼睛、鼻子、嘴巴,可能就會變成他在講這句話時候,聽起來像是他在取笑人家,這也是半真半假,科技進步到都很容易做到。
現在這些真真假假的影片或內容,基本上就是把真實跟虛構元素合在一起。以現在的技術與工具,已經可以做到相當程度了。但如果要讓人家更相信的話,可能再經過人工的修改,就會讓這個效果更凸顯出來,讓閱聽眾更難區別真與假。