中國網/中國發展門戶網訊 人工智能生成內容(AIGC)技術是指基于生成式人工智能算法和模型創作文本、圖像、聲音、視頻、代碼等內容的技術。作為近年來人工智能領域的最大突破之一,AIGC方向不斷涌現里程碑式突破,人工智能模型由理解判別走向生成創造。以GPT-3.5為代表的語言模型、以Stable Diffusion為代表的文生圖模型和以Sora為代表的文生視頻模型分別突破通用化文本、圖像和視頻生成的難關,內容效果愈發逼真,制作成本逐漸降低,可用范圍不斷擴展。據預測,我國AIGC市場在2030年將達到萬億元規模,人工智能合成數據將成為新增人工智能訓練數據的主要來源。
然而,AIGC技術與應用的蓬勃發展也帶來了新的公共安全隱患,嚴重威脅國家安全和社會穩定。最新AIGC技術的特點可以大致總結為“逼真度高、創作效率高、通用性高”,這種質量、數量、適用范圍的全面提升,導致人類和傳統技術很難立刻分辨真實來源內容和AIGC。近年來,基于AIGC的違法犯罪行為越來越多,AIGC技術在不斷降低傳統違法犯罪成本的同時,也催生了新型違法犯罪活動的快速涌現,不斷撼動現有社會信任體系,公共安全治理面臨更嚴峻的挑戰:利用AIGC技術生成虛假信息、操作輿論,是世界各國面臨的國家安全難題;利用AIGC技術進行身份偽造、學術造假、黑產牟利,是各行各業面臨的安全發展難題;利用AIGC技術進行電信詐騙、隱私侵犯,是困惱每個公民的個人安全難題。
AIGC安全治理已進入從高層共識到全民共識的“深水區”、從立法到執法的“深水區”、從探討危害到實際部署能力的“深水區”。《中國科學院院刊》2025年第3期“人工智能與公共安全”專題,邀請科研和實戰一線的領軍人物論述智能時代公共安全面臨的各方面挑戰及其應對策略,為智能時代公共安全體系的重塑提供深度思考和解決方案。受限于篇幅,專題文稿主要關注智能時代對公共安全的技術挑戰、業務挑戰、算法治理挑戰、重要應用挑戰4個方面。
技術挑戰。隨著AIGC技術快速發展,生成內容越來越逼真,肉眼很難分辨,需要依賴技術手段進行檢測。面對層出不窮的AIGC新技術和應用,如何構建對新模型可擴展、可溯源的檢測技術體系,支撐公共安全治理?本文將介紹生成技術和檢測技術的重要進展,梳理當前AIGC檢測面臨的挑戰,提出面向實戰場景的應對建議。
業務挑戰。AIGC技術的顛覆性與快速迭代性,使未來技術發展可能導致的風險具有高度不確定性,極易引發各類新型犯罪。而現有的法律規制與監管執法手段仍存在漏洞,為犯罪打擊帶來嚴峻挑戰。北京市公安局高建新副局長等將介紹人工智能犯罪的類型、態勢、特點,并針對人工智能犯罪治理現狀與挑戰提出對策建議。
算法治理挑戰。在人工智能時代,算法作為一種新的生產工具,在各種系統服務中扮演著比以往更重要的角色,在推薦系統等場景甚至已經成為人類決策的替代。由于生成式人工智能算法普遍不具有可解釋性,在應用場景中會給公共安全帶來未知的風險和挑戰。中國科學院計算技術研究所程學旗研究員等將聚焦智能算法安全的內涵與科學問題,促進智能算法可信、可管、可控,形成智能算法治理的長效機制。
重要應用挑戰。人工智能作為新質生產力,應用場景豐富,發展潛力巨大,各個領域已經開始探索智能化系統的落地應用,但其中的潛在風險特別是特定應用場景獨有的安全風險仍不容忽視。浙江大學徐文淵教授等將從信息域、物理域、社會域視角出發,探討具身智能的安全內涵與安全體系,提出具身智能的安全防護體系和綜合治理措施。
人工智能內容生成技術發展迅速,但安全性問題突出
人工智能內容生成技術概述
AIGC的質量迅速提升,曾經困擾研究者多年的語句不通順、視頻不連貫、語音不自然等生成瑕疵基本已不存在。經過預訓練的大語言模型依賴少量的提示語即可完成各類文字任務;視覺模型僅需要1張照片即可完成換臉任務,5—10張不同角度的照片即可微調實現實時人臉替換;若獲取10—20秒的含人臉、聲音的視頻,即可基于音視頻生成技術得到該人物的“數字人”。然而,與生成能力不匹配的是人類仍然缺乏自主辨識AIGC的能力。一項4 600人參與的實驗顯示,人類還無法憑借自身總結的經驗分辨人類和人工智能生成文本;類似的結論也在基于視覺[3]和人聲[4]內容的獨立實驗上分別得到驗證。這意味著人工智能生成技術一旦被惡意利用,多數人將無法借助自身知識避免受騙。以下將從AIGC技術主要包含的文本生成、視覺生成和音頻生成技術3個方面說明。
文本生成。以GPT系列為代表的通用對話式文本生成大模型主要依賴于關鍵結構(Transformer網絡)、大數據(互聯網級語料)和大算力(萬級圖形處理器訓練)3個要素。Transformer是一類基于注意力機制的神經網絡結構,其根據各個字詞的相關性分配不同權重,能夠更好地處理長期依賴關系,具有高度可并行性,非常適合大規模訓練。在過去的5年內,語言模型的參數量從億級(GPT-1)猛漲到了千億甚至萬億級(GPT-3及后續版本),參數量的增長也帶來了驚艷的效果。目前,文本生成模型的總體建模思路暫時趨于穩定,研究者已將更多精力放在對當前模型分享訓練與應用模式的改進和擴展上,具體可分為4個方面:交互體驗方面,北京月之暗面科技有限公司的Kimi等模型注重長上下文擴展,輸入輸出窗口最長可達百萬級詞元(token),可以在短時間內從大量資料中定位所需信息;智能提升方面,美國人工智能公司OpenAI提出“超級對齊”(Super Alignment),顛覆現有的“強對弱”對齊模式(如人類對語言模型),期望實現“弱對強”的監督,最終目標是實現“超人智能”;安全輸出方面,美國人工智能初創公司Anthropic提出基于人工智能反饋的強化學習框架(RLAIF),通過少量的自然語言準則或指令降低模型輸出的有害性;高效訓練部署方面,杭州深度求索人工智能基礎技術研究有限公司的DeepSeek系列模型關注模型架構效率提升,其V3模型(6 710億參數)訓練所需機時僅為美國Meta公司Llama 3模型(4 050億參數)的9.1%;北京面壁智能科技有限責任公司的MiniCPM和美國微軟公司的Phi等模型關注邊緣側應用,推出的十億級參數模型可在智能終端本地運行。
視覺生成。早期的圖像和視頻生成主要依賴生成對抗網絡(GAN),通過生成器和判別器的對抗訓練來提高視覺內容質量,但其穩定性一直不高。近年來,基于概率的無監督式生成模型(擴散模型)越來越引人關注,其設計靈感來自于非平衡熱力學,模仿擴散過程對圖像不斷加噪以將其轉變為近似噪聲的隱編碼,然后模型學習逆轉加噪的過程,從圖像相同尺寸的噪聲中不斷去噪以還原原始圖像。擴散模型的訓練相對簡單且穩定,比傳統的GAN更容易實現。同時,擴散生成模型的表示能力非常強,其加噪去噪過程的設計適合完成圖像到圖像的轉換任務(如圖像修復、圖像超分辨率、圖像風格轉換),也適用于表情修改、風格化等編輯任務。更重要的是,擴散模型不容易出現GAN訓練中常見的梯度消失和梯度爆炸問題,更適用于作為視覺生成大模型的基礎結構,因此成為了近期推出的Flux、Sora等視瑜伽場地覺大模型的主要選擇。
音頻生成。音頻生成主要包括人聲生成、環境音合成、音樂生成等任務。與文本生成類似,音頻生成大模型也采用了序列建模的框架,音頻信號首先通過編碼器離散化為音頻“字符”,之后輸入基于Transformer的模型進行訓練。例如:在音樂生成方面,美國互聯網公司Meta推出的AudioCraft工具可以實現輸入文本指令,生成指定風格的音樂和音效;英國人工智能初創公司Suno AI推出的Suno V3可以一次性制作帶有人聲和背景旋律的“廣播級”音頻;在人聲生成方面,美國人工智能公司OpenAI發布的Voice Engine、阿里巴巴通義實驗室發布的CosyVoice等模型僅基于十幾秒內的原始音頻,即可生成模擬音色、韻律、情感色彩的音頻,甚至實現跨語種生成,互聯網上廣為流傳的“AI郭德綱”等視頻中的聲音合成多采用這類技術。
人工智能生成技術濫用情況
盡管在生成質量取得了突破,催生了一大批基于AIGC的應用產品,但現有AIGC技術的安全問題仍然十分突出,并且在模型本身安全圍欄不牢固與不法分子惡意利用的雙重作用下,已開始造成諸多現實危害。
基于AIGC技術批量生成虛假信息,危害國家安全和社會穩定。借助AIGC技術,造假者可以基于熱點新聞素材大批量偽造低質假消息,成本進一步降低,傳播隱蔽性更強,隨時可能引發輿論爭議,在政治選舉等關鍵事件中誤導民眾。2023年9月,一段關于候選人操縱選舉的人工智能偽造錄音流出,對斯洛伐克議會選舉產生了顛覆性的影響;2024年1月,美國新罕布什爾州部分選民接到了“AI拜登”的語音電話,試圖阻止他們參與民主黨初選。根據調研機構NewsGuard報告,截至2025年2月,全球已出現依賴人工智能生成新聞資訊的低質網站1 254家,涵蓋漢語、英語、法語等16種語言;大語言模型仍存在幻覺問題,報告顯示DeepSeek-R1的幻覺率高達14.3%,在開源模式下其被私有部署用于生成虛假信息的風險可能進一步擴大;世界經濟論壇發布的《2025全球風險報告》指出,利用人工智能生成的錯誤和虛假信息是近2年最大的全球性風險。
基于AIGC技術換臉變聲的新型詐騙,危害個人安全。隨著人工智能換臉、擬聲技術的發展,詐騙者只需要獲取一張照片、一小段語音,就可以實現低成本的實時換臉變聲,實現在線會議、視頻通話場景下的長時間穩定身份替換,令普通民眾防不勝防。據奇安信監測,基于人工智能的偽造欺詐在2023年暴增3 000%;邁克菲一項全球7 000余人參與的調研顯示,10%受訪者曾經歷人工智能語音詐騙。不僅如此,基于AIGC的新型詐騙單筆涉案金額越來越大,2024年2月,香港警方披露了一起冒充跨國公司首席財務官的AIGC詐騙案件,涉案金額高達2億港元。
基于AIGC技術生成私人性內容圖像,侵犯個人隱私和名譽。隨著人工智能算力基礎設施日益完善和人工智能應用服務模式不斷創新,AIGC能力的獲取門檻已顯著降低,家教非專業人士也可以通過個人終端設備輕松生成指定內容,易被抱有不良目的的人利用。2024年8月,韓國爆出AIGC版的“N號房”事件,通信軟件Telegram上出現大量聊天群分享和傳播人工智能偽造的性內容圖像,對象涉及學生、教師、醫護等特定職業群體,嚴重侵害受害者隱私和名譽;受害者遍布500多所學校,規模之大令人震驚。這些內容并非出自少數職業團伙之手,而是由普通民眾惡意利用公開AIGC工具制作,已知的加害者中甚至有相當一部分還是在校未成年人。
AIGC檢測技術是應對AIGC濫用的關鍵
AIGC檢測技術概述
AIGC檢測技術是用于分辨各類AIGC與人類書寫、攝錄內容的技術的總稱,在實際應用中已經取得了一定的成效:在互聯網流量監管中,檢測技術被用于違規內容篩查,支撐公安機關破獲多起人工智能偽造相關案件,服務重大任務安保;在重大事件輿情監測中,檢測技術被用于識別虛假信息,支撐快速形成重大事件虛假內容專題報告;在金融服務中,檢測技術被用于防范基于人工智能技術的身份冒充,已成為銀行等金融機構交易鑒權環節的必備模塊。以下將從AIGC檢測技術主要包括的生成文本檢測技術、生成圖像視頻檢測技術、生成音頻檢測技術和生成模型溯源技術4個方面說明。
生成文本檢測技術。生成文本檢測模型用于區分人工撰寫和人工智能模型生成的文本,主要包括基于生成概率和基于風格特征的檢測方法。基于生成概率的檢測方法。此類方法認為大語言模型的預訓練和生成采樣過程塑造了獨特的用詞偏好和用詞穩定性。例如,人工智能生成的論文審稿意見中“commendable”一詞出現的頻次明顯高于人類審稿意見;人工智能生成文本的寫作結構相對于人類而言更加穩定。在ChatGPT問世不久后引發關注的產品GPTZero就利用了這些性質,構建了基于語言模型困惑度(perplexity)和突發性(burstiness)的檢測模型。斯坦福大學學者提出的DetectGPT延伸了這一思路,通過擾動生成采樣過程,觀察當前用詞是否遵循了“選擇概率最高”的人工智能采樣規則九宮格作為區分人類和人工智能生成文本的信號。不過由于模型特性仍存在差異,上述模型一般只適用于已知特定模型生成的文本。基于風格特征的檢測方法。此類方法主要依賴語言學分析和神經網絡特征學習,從詞匯多樣性、連貫性、重復性等文體學特征以及事實要素篇章一致性等文字結構的相關特征區分人類和人工智能生成文本,但這類方法的檢測靈敏度正因生成質量的提高和檢索增強生成等輔助技術的應用而逐漸降低,其全面性和靈活性明顯受限于先驗知識。
生成圖像視頻檢測技術。生成圖像視頻檢測的設定與文本類似,一部分檢測方法利用自然攝錄內容概念的先驗性質,另一部分注重挖掘生成與編輯過程的特性。基于先驗性質的檢測方法。此類方法認為生成的視覺內容無法完美復現真實世界中視覺語義概念特性,因此觀察概念呈現的合理性更容易發現AIGC的細微瑕疵。例如,早年人工智能換臉視頻經常出現眨眼頻次不合理、不生成說話人牙齒、膚色過渡不自然等生理信號瑕疵;還有一些方法利用Xception等預訓練視覺模型中蘊含的自然圖像先驗,通過微調的方法將通用視覺理解模型轉化為生成內容檢測模型,但生成內容逼真度的大幅提高正在不斷縮小先驗上的差異。從生成和編輯過程提取特征的檢測方法。此類方法關注頻域統計特性、壓縮特性方面的差異。例如,有研究發現生成模型的上采樣模塊可能在生成圖像中留下穩定的隱藏痕跡及紋理信息,因此可以通過提取隱藏痕跡用于檢測;對于利用人工智能修圖產生的區域編輯圖像[8],還可以通過比較生成區域和原圖區域在像素排列邏輯、光學噪聲、重壓縮痕跡實現更精細的區域定位。
生成音頻檢測技術。生成音頻檢測可進一步分為全局生成檢測和生成片段定位2個任務。其核心是通過考慮語音信號、聲紋特征和頻譜分布等特征進行鑒別。全局生成檢測。此任務的基礎特征包括原始波形和功率譜、幅度譜、相位等頻譜特征。對于特定人的生成語音檢測,還會提取與說話人身份有關的特征。近年來,大規模自監督預訓練模型HuBERT的輸出也成為檢測模型采用的特征,其泛化性高于傳統特征。生成片段定位。此任務用于應對語音篡改行為,更加注重建模幀級別特征,通過偵測真假語音的波形邊界識別被替換為生成語音的片段。
生成模型溯源技術。生成模型溯源的目的是從內容識別其來源模型,其基本假設與生成內容檢測類似,都是認為生成內容中蘊含著某種具有模型特異性的特征。不同的是,溯源技術關注如何區分不同的AIGC模型。溯源方法根據是否可以獲得模型內部信息,分為白盒方法、黑盒方法和灰盒方法。白盒方法。采用白盒設置的溯源方法通過獲取給定內容在候選模型上推理的統計指標(如文本詞頻分布)作為特征,衡量模型對內容的“熟悉度”以判斷來源。黑盒方法。采用黑盒設置的方法主要以數據驅動的思路構建溯源模型,通過挖掘同源生成內容的共性獲得其中只與來源模型有關的特征實現溯源,提取出的特征也被稱為“模型指紋”。灰盒方法。針對白盒方法無法用于閉源AIGC大模型的問題,近期學者開始研究灰盒溯源方法,即使用內部信息更方便獲取的開源大模型作為代理估計閉源大模型特性,再利用白盒方法的思路做出判斷,在生成文本溯源任務上取得了介于黑盒和白盒方法之間的溯源效果;由于多數現有方法只能追溯到訓練階段已知生成模型,無法識別未知生成模型,近期一些學者也開始探索將未知模型歸入“其他”類的開集模型溯源[10]和支持新生成模型發現的零樣本模型溯源技術。
實戰場景AIGC檢測技術面臨的挑戰
盡管目前AIGC檢測技術和工具都已具備,但面對大模型應用的快速大規模普及,生成與檢測的持續對抗仍在升級。未來的AIGC監管實戰將面臨3項關鍵挑戰。
如何提升檢測模型針對新出現AIGC模型的泛化能力。AIGC技術迭代更新很快,生成質量的提升、模態的擴展、技術方案的升級、從閉源到開源生態的構建,往往是在幾個月內完成的。例如,美國人工智能公司OpenAI在2024年5月展示了可語音交互的多模態大模型GPT-4o,9月就出現了Llama-omni等跟進工作。隨著新的生成模型不斷出現,原有檢測模型可能性能降低甚至失效,需要構建具有更強泛化能力的基座檢測模型。
如何在強對抗的犯罪場景下進行高精準的鑒偽。對于詐騙等強對抗、高風險犯罪,造假者會采取各種手段逃避檢測。例如,造假者可能利用私有模型重述生成文本,抹除文本中來源模型的痕跡,使溯源手段失效;對于圖像視頻可能采取壓縮手段,在仍保留語義信息的前提下減少檢測模型依賴的其它信息,導致模型漏檢。
如何兼顧新技術的安全與發展,在大量無害生成中精準識別出有害偽造,降低對正向生成應用的影響。生成式人工智能作為新質生產力的代表,未來會催生大量正向生成應用。但從技術層面來說,正向應用和違法犯罪應用依賴的算法、模型在本質上沒有區別。影視創作、智能客服等合理應用生成的內容依然會被檢測模型識別,既影響這些內小樹屋容正常傳播的權利,也為監管系統造成了更大的負擔。
構建AIGC全流程檢測體系
按照公共安全事件“事前—事中—事后”的分階段管理機制,圍繞AIGC生成內容的制作和傳播過程,有必要構建“生成時可賦標、傳播中可鑒別、案發后可溯源”的AIGC內容檢測技術體系。其具體內涵可總結為3個部分。
事前治理:生成時可賦標。針對文本、圖像、音頻、視頻等不同模態生成內容,在模型輸出時,通過算法主動植入帶有信息的數字水印,水印中包含模型型號、用戶身份標識號(ID)等隱式的身份指示信息,在內容可視區域添加用戶可明顯感知的標識,方便用戶識別。
事中治理:傳播中可鑒別。針對網絡空間中傳播的大量未標識內容,使用AIGC檢測技術自動識別疑似AIGC,進行標識提醒,對惡意偽造內容進行及時預警。
事后治理:案發后可溯源。針對已經識別到有害的AIGC,開展追查溯源工作。對于帶有數字水印的內容,通過顯式標識識別、元數據抽取或隱式水印提取等方式,得到生成內容的來源模型名稱;對于不帶有數字水印的內容,使用生成模型溯源技術,根據內容從候選模型尋找疑似的生成模型;針對未收錄的模型生成內容,支持歸入“其他”類的開集設置。
AIGC檢測發展展望與建議
AIGC安全風險治理是一項世界各國共同關心的課題。作為生成式人工智能應用大國,探索和構建AIGC檢測技術體系既是維護我國公共安全、引導推動我國人工智能技術健康發展的必要舉措,也是為全球人工智能治理積累中國經驗、貢獻中國智慧的重要契機。中國有望成為世界范圍內“人工智能與公共安全”方向的引領者,而率先構建AIGC檢測技術體系將成為其中的關鍵一步。
AIGC檢測能力決定著AIGC應用的安全邊界,AIGC全流程檢測體系的有效建立是AIGC應用蓬勃發展的前提。建立涵蓋事前、事中、事后的檢測體系不是單純的技術問題,需要監管部門、科研機構、AIGC服務者緊密合作。面向公共安全實戰需求,從技術層、機理層和應用層同步發力,在檢測技術與能力不斷提升的同時優化制度要求、技術水平和應用場景的適配程度。開展檢測能力驗證計劃,大力推動實戰演練,從真實場景中發現痛點問題,達到用技術解決技術問題的效果。
技術層面
推動AIGC檢測能力基座化,實現AIGC檢測高效可泛化。面對AIGC聚會技術快速迭代導致的廣譜檢測和快速響應難題,需要摒棄“來一個打一槍”的事后思維,重視檢測能力的基座化。構建AIGC檢測的基座大模型,提升針對不同來源生成內容的檢測泛化能力,突破面向檢測大模型的持續學習,實現有限樣本下的可擴展模型訓練,使模型快速具備新出現AIGC的檢測能力;提高檢測基座的推理效率,通過軟硬協同設計,使模型推理與算力基礎設施特性相適應,更好地應對大批量AIGC檢測需求。
機理層面
探索生成過程的逆推溯源,促使AIGC檢測結果可解釋。隨著AIGC應用場景日趨復雜,其制作過程往往由多重偽造操作疊加,對鑒偽取證和責任界定構成了嚴峻挑戰。因此,需要探索偽造操作疊加條件下的生成過程逆向解離和原始內容復原。全面分析偽造操作類型,構建覆蓋常見偽造工具的特征庫,深入解析偽造過程對最終內容施加的影響;構建偽造失真分級量化體系,挖掘偽造手段本質模式,增強偽造痕跡的消除和原始特征的還原效果。
應用層面
面向受眾提供多種形式的偽造檢測工具,實現“人人可鑒偽”。隨著大模型輕量化部署能力的快速發展,生成內容安全風險逐漸轉移到終端,每一個普通民眾都是“認知戰”的受眾主體。為應對安全風險終端化的趨勢,應從2個方面入手:提升大眾人工智能技術素養是抵御認知干擾最好的方法,要加大科普力度,提高民眾對生成式人工智能技術的認識;要給民眾提供簡單易用的鑒偽服務和鑒偽工具,讓普通用戶在身份驗證、內容鑒定等日常場景中有工具可用。例如,杭州中科睿鑒科技有限公司發布的“終端AI鑒偽大師”將鑒偽服務深度融入終端系統,已在手機、平板電腦、筆記本電腦等消費級終端設備上部署,實現對視頻通話、會議家教場地、直播等場景下偽造內容及時告警,及時保護終端用戶安全。
(作者:曹娟,中國科學院計算技術研究所 中國科學院大學計算機科學與技術學院;盛強、李國杰,中國科學院計算技術研究所。《中國科學院院刊》供稿)