中国科学院信息工程研究所虎嵩林：“攻、检、防”循环推动大模型安全加固

4月26日(rì)，在2024中关村论坛年会——数据安全治理与发展论坛上，中国科学院信(xìn)工(gōng)所研究员虎嵩林接受(shòu)包括证券时报记者在内的媒体采访时指出，促使大(dà)模型遵(zūn)循人类价(jià)值观、服从(cóng)人类意图，规避(bì)各(gè)类风险，并保障数字和物理空(kōng)间的应用安全(quán)，实现有用性(xìng)、无害性和诚实性多目标的平衡，已经成为亟待解决(jué)的世界难题。需要(yào)在现有的技术条件下持(chí)续探索，通过(guò)“攻、检(jiǎn)、防”，不断发现漏洞、自动识别并进行(xíng)持续(xù)化的安全加固，形成一个循环发(fā)展的飞轮。

（中国科学院信工所研究员虎嵩林郭博昊/摄）

当前(qián)，大模型(xíng)正在成为驱动新(xīn)质生产力发展(zhǎn)的新动(dòng)能、人类探索(suǒ)未(wèi)知的(de)新工具。“大(dà)模(mó)型不仅可以对话和生成视频、还可以调用工(gōng)具、链接物理设备、并(bìng)通过与机(jī)器人结合实现具(jù)身智能。大模型本(běn)身也正在从人类(lèi)可利用的工(gōng)具客(kè)体向(xiàng)认(rèn)识、改造自然社(shè)会的主体转变。成为数学定理证(zhèng)明、科(kē)学研究的合作者，成为(wèi)独立运营企业的法律主体。”虎嵩林指出。

在赋能新时代发展的同时，生成式人工智能也给(gěi)全球带来了前所未有的安全(quán)风险。比如(rú)，数据方面，数据会带来价值偏见(jiàn)、隐(yǐn)私(sī)泄露、数据污染等问题：训练数据固有偏见导致(zhì)模型产生偏见内容(招商证券：北美与国内变压器市场的需求与要求都在提升róng)；海量训练数据扩大了数据安全和隐私保护风险。算(suàn)法方面(miàn)，算法模型生成特(tè)性及安全漏洞(dòng)会(huì)引发“幻(huàn)觉”或虚假信息、模(mó)型遭受攻击等风险。

虎嵩林表示，大模型(xíng)能力的通用性、潜在的主体地位以及(jí)应用的深度与广度，也都将进一步放大其危害程度。包括两位图灵奖得(dé)主Hinton、Bengio和谷歌DeepMind和OpenAI的CEO在内的产学两界领军人物联名发出的AI风险声明中，更将AI可能带(dài)来的“毁灭性”的风险，上升到了与流行病以及(jí)核战争相提并论的高度。

2023年底《自然》杂志(zhì)预测的2024年的重大(dà)科学事件中，GPT5的发布(bù)以及联合国人工智能高(gāo)级别咨询(xún)机构将(jiāng)发布的AI监管(guǎn)相关(guān)报告位列其中，反映(yìng)了全球对协调人工智能发展与安全的(de)重大关切。

“毫无疑问，促使大模型遵循人类价值观(guān)、服从人类意图，规避各(gè)类(lèi)风险，并保障数字和(hé)物理空间(jiān)的应(yīng)用安全，实现有(yǒu)用性、无害性和(hé)诚实性多目标的平衡，已经成为亟待解决的世界难题。”虎嵩林表示。

“大模型的安全风险主要体现在无害(hài)性（Harmless）和诚实性（Honest）两个方面。”虎嵩林表示，其中，有害信息对应前者，包括价值偏见(jiàn)，隐私泄露，还有黄(huáng)赌毒、涉(shè)恐涉暴、仇恨、反讽、歧视、刻(kè)板印(yìn)象等等(děng)各种信息污染；不实(shí)信息对应后者，包括虚假(jiǎ)信息、伪造(zào)、欺诈内容等(děng)。

更广义地讲，也(yě)包括由输出信息(xī)所(suǒ)直(zhí)接导致的各类不(bù)安全的指令调用、智能体或者具身智能机器人的恶意行(xíng)为等。而算法模型生成特性及(jí)安全漏洞会引发(fā)“幻觉”，则是一把“双刃剑”，既有可能是导致有害、不实信息的 “元凶”，也有可能是(shì)科学创新、艺术创意的能力来(lái)源。

需要看到，生成式(shì)大模型特有的预训练、微调、上下文、提示等新的(de)学习(xí)范式(shì)，使其(qí)安全具有(yǒu)了与传统AI安全不同(tóng)的许(xǔ)多新特点，面(miàn)临诸多新挑战，制约了传统安(ān)全方法(fǎ)、经验、工具在大模型安全领(lǐng)域发挥效能。

大模型安(ān)全风险的成因既可(kě)以是来自(zì)各类训练数据的缺(quē)陷或算法的局限性等(děng)模型内因，也可以是利用这些新型学习范式的恶意(yì)使(shǐ)用或蓄意(yì)攻击等外因。这使得大模(mó)型在数据准备、预训练、微调对齐、推理以及应用阶段都会存在各种潜在的(de)风险。尽管(guǎn)目前我们在安全理论、大模型安全评测、自动化测试、价值观对齐、幻觉缓解等方面都开展了一招商证券：北美与国内变压器市场的需求与要求都在提升系(xì)列的(de)研究和应用工作，这些(xiē)领域依然充满了挑战。

“当下，从理论上，或者说技术(shù)上，大模型(xíng)安全还有很多亟待解决的难题。”虎嵩林(lín)坦言，我们对大模型“智能涌(yǒng)现”的原理(lǐ)还所知甚少，对上下文学习、提示学习(xí)、思维链等能(néng)力的内在(zài)机理仍严重缺乏认知。一些研(yán)究工作也证明(míng)AI的安全性无法完全(quán)保障，对任意一(yī)个对齐模型总存在一定长度的提示可以将之攻(gōng)破等，这都极大地制约我们从原理上认识和防御(yù)大模型的安全风险。

“我们需要在现有的技术条件下持续探索，这也是(shì)我们设计‘以攻促防、攻防相长(zhǎng)’思路，研(yán)制Galexy(星河)大模(mó)型安全测评平台的原(yuán)因，也是举办首届生成式(shì)人工智(zhì)能安全大赛的初衷。”虎嵩林表示，我们希望通过“攻、检、防”，不(bù)断发现漏洞(dòng)、自动(dòng)识(shí)别并进行持续化的安全加固，形成一(yī)个循环发展的飞轮。

校对：祝甜婷

未经允许不得转载：太仓网站建设,太仓网络公司,太仓网站制作,太仓网页设计,网站推广-昆山云度信息科技有限公司招商证券：北美与国内变压器市场的需求与要求都在提升