抖圈为赌而生:大模型的宁静挑战及应对建议

宣布时间 2024-09-06

当前,大模型技术在多个领域显著提升事情效率、改变了生产模式,并缔造了巨大经济价值。例如,在金融行业,大模型被用于风险评估与市场预测 ;在医疗行业,它则助力图像识别与疾病诊断等。然而,这些技术带来的宁静风险和伦理问题也备受关注�?攀� Web 应用法式宁静项目(OWASP)宣布了关于大模型应用的十大宁静风险,这些风险不仅包罗传统的沙盒逃逸、代码执行和鉴权不妥等宁静风险,还涉及提示注入、对话数据泄露和数据投毒等人工智能特有的宁静风险。


一、宁静风险


大模型的宁静风险不仅限于数据宁静和隐私问题,还涉及其训练数据的庞大规模及其中潜在的偏差,这些偏差可能导致大模型在生成内容时不自觉地反映出这些偏差,进而发生歧视性或禁绝确的输出


(一)数据宁静与隐私风险


在大模型领域,存在几个要害的数据宁静和隐私风险:一是传输截获风险,敏感数据如个人身份和金融信息在差异主体间传输时容易被截获,导致隐私泄露 ;二是运营方窥探风险,运营机构可能非法收集和利用用户数据,包罗个人偏好和行为习惯,进行不妥营销或计谋,甚至将数据出售给第三方以牟利 ;三是大模型记忆风险,大模型训练后保留的历史数据和信息可能被泄露或滥用,攻击者可利用这些信息实施诈骗或针对性攻击,严重威胁用户个人信息宁静。


(二)提示注入风险


大模型与人类的相同建立在对自然语言的解析和理解上。然而,由于这些大模型在区分系统指令和用户输入方面存在挑战,这为提示注入攻击提供了机会。在这种攻击中,攻击者可以利用大模型对上下文的依赖和对自然语言的理解,通过巧妙结构的提示来利用大模型的输出。


角色饰演是提示注入攻击的一个典型案例。通常大模型会制止发生可能危害社会宁静的回答。攻击者通过让大模型饰演新的角色,可以绕过这些限制,从而输出原本应被拒绝的信息。此外,攻击者可能在一个问题中注入虚假信息,导致大模型给堕落误的回复 ;或者在多个问题中注入相关信息,使大模型在逻辑推理上发生偏差。攻击者还可以通过支解和重组字符串,疏散大模型的注意力,使其暂时忽略对输出内容的检查。这种攻击不仅会严重影响用户体验,而且如果恶意提示包罗种族、政治等敏感话题,还可能加剧社会矛盾。


(三)反抗攻击风险


在大模型的场景下,反抗攻击可能体现为对输入文本的微小修改,这些修改可能看起来无关紧要,但可能会导致大模型发生完全差异的输出。例如,攻击者可能会在输入文本中插入一些看似无关的词语或符号,或者微妙地改变一些词语的拼写,从而诱导大模型发生错误或误导性的输出。


(四)大模型滥用风险


大模型自己不能缔造知识,但可以把碎片化的知识整合起来,从而大大降低使用门槛。然而,这种便利性也带来了被滥用的风险。例如,恶意攻击者可能会利用大模型生成网络攻击的工具,如垃圾邮件、网络钓鱼攻击、恶意软件等。


(五)内容宁静合规风险


大模型生成的内容是用户和大模型交互的结果,并不完全是大模型自身的产出。内容宁静的风险很洪流平上来自于用户的恶意输入和诱导,此外,即使没有恶意攻击者的存在,大模型的输出内容也并非完全宁静,因为训练数据自己可能包罗偏见和有害内容。这些偏见和有害内容可能在大模型的输出中得到反映,从而对用户造成误导。


(六)推理隐私泄露风险


虽然大模型在训练时不会记住具体的数据,但如果训练数据中包罗敏感信息,大模型可能学到这些信息的一般模式,并在生成文本时发生类似的内容。例如,如果大模型在训练数据中看到了很多密钥信息,它很可能在内容生成时输出真实密钥信息,从而导致敏感信息或隐私信息泄漏。攻击者甚至会恶意诱导大模型输出隐私内容。


(七)事实性错误风险


图灵奖得主杨立昆(Yann LeCun)指出,自回归模型的错误概率会指数叠加,基于自回归模式的生成式人工智能难以处置错误叠加的问题,随着输出长度增加,大模型的“幻觉”更明显,即大模型可能一本正经地输堕落误或虚假的信息� ;镁跷侍獾拇嬖�,部门原因是大模型可能被人为利用,通过重复诱导发生错误的输出。但即使没有人为的故意诱导,幻觉问题仍然会存在。


假设应用于医学、金融等非闲聊式场景,这些潜在风险可能会造成经济损失或威胁生命宁静。例如,美国一位拥有 30 年经验的资深律师 Steven Schwartz 使用 ChatGPT 创建执法研究陈诉,并重复用 ChatGPT 确认这些案例都是真实存在的,而且能在知名执法数据库中查到。然而,在提交了这些陈诉后,被法院认定至少有 6 个案例“不存在”,因此他陷入了麻烦。


二、风险治理


由于深度神经网络的不行解释性,我们无法确定网络中哪部门参数对应以上风险,也没有技术手段在生成阶段禁止大模型生成风险内容。这决定了必须从工程化的风险治理视角出发,结合国内外规则和提倡性意见,生成式人工智能的风险治理需要贯穿产物的全生命周期——数据处置、大模型训练、问题输入、内容生成、内容宣布与流传各阶段。


(一)数据收罗、处置阶段的风险治理


为了� ;な莸幕苄院屯暾�,在数据处置阶段必须接纳适当的宁静措施,包罗数据分类与� ;ぁ⑹萃衙簟⑹菰瓷蠛恕⒉罘忠胶屯用艿�。在数据宁静方面,应对数据进行分类和分级,凭据其宁静级别接纳相应的� ;ご胧�,并通过流程化的流转审批机制确保数据通报的合法性和授权。在须要时,对敏感数据进行脱敏处置,以� ;じ鋈艘�,并建立数据备份与恢复机制,防止数据丢失或损坏,并确保数据的快速恢复。此外,选择可信度高、正确导向的数据源进行合法收罗,针对大模型面临的数据投毒和隐私泄漏风险,接纳数据清洗的方式筛选出有问题的数据,并将相关数据从训练数据中移除。


在数据隐私� ;し矫�,差分隐私技术通过添加噪声来� ;び没Ш湍P椭浣换サ氖�。此外,结合同态加密实现加密存储和宁静计算,确保数据在加密状态下的宁静性,也是一种有效的隐私� ;ご胧�


(二)大模型训练阶段的风险治理


训练阶段奠基了大模型能力的基石,同时也构筑了其宁静防线,以下是四个要害的治理计谋。


一是宁静评测。针对算法宁静风险,可以建立综合性的评测机制,不仅包罗攻击手段,也涵盖其他评估要领,以攻促防,全面评估算法的宁静性。例如,除了使用反抗攻击的手段来测试大模型的防御能力,还可以接纳代码审查、漏洞扫描等要领,以及通过越狱攻击、反向诱导等手段来测试大模型反抗提示注入攻击的能力。


二是增强鲁棒性。通过革新算法训练要领、调整算法模型结构、扩充多样化的训练数据集,来增强大模型的鲁棒性,提升算法反抗诱导攻击的能力。例如,可以使用反抗训练、将攻击样本加入训练数据集的方式来增强大模型反抗和反抗攻击的能力。


三是后门检测。鉴于大模型可能遭受的改动风险,可以建设大模型后门检测能力,深入分析大模型的行为模式,以便及时发现任何异常行为。这通常涉及对大模型行为进行深度分析,以识别出与正常行为不符的模式。


四是接纳联邦学习技术。允许大模型在不共享原始数据的情况下进行训练,通过在当地设备上处置数据,仅共享大模型的参数更新,从而有效� ;び没б�。


(三)内容生成阶段的风险治理


用户和大模型交互时,大模型所生成的内容宁静风险很洪流平上来自于用户的恶意输入和诱导。因此,从用户维度进行管控也是非常有效的手段之一。


一是宁静攻击检测。通过宁静检测手段,检测大模型在应用过程中是否存在提示注入攻击、反抗攻击和隐私攻击。例如,可以通过提示过滤的方式从输入侧防御提示注入攻击,过滤掉可能导致攻击行为的提示注入和潜在的敏感内容。二是内容宁静合规审核。即使没有用户的诱导,大模型的输出内容也并非完全宁静。宁静合规审核的目标是识别并制止输出风险内容,以确保大模型和相关应用的内容宁静。OpenAI 声称,用 GPT-4 做内容审核的水平比轻量级训练过的人类审核员强,但比训练有素的人类审核员弱。因此,可以使用基于大模型的要领来识别大模型的输出内容是否涉及暴力、色情、歧视、偏见等。


目前,有一些风险识此外方案提出,例如 Perspective API、finetuned Roberta-Hate-Speech、Llama Guard 和 ShieldLM。其中,Perspective API 和finetuned Roberta-Hate-Speech 在特定类此外数据上体现良好,但不能适应新的规则的定制 ;Llama Guard 在训练期间加入了规则,但缺乏解释能力 ;ShieldLM 通过收集大量中英文标注的查询-响应来增强与人类宁静尺度的一致性,支持在训练时加入自界说规则。此外,ShieldLM 构建了一个流程,自动创建与人类标注一致的自然语言分析,资助解释响应为何被认为是宁静、不宁静或有争议。


(四)内容流传阶段的风险治理


在内容流传阶段,风险的扩散范围和速度已经脱离了服务提供者的控制,因此需要用流传领域的手段来治理风险。

一是添加标识。通过使用水印系统等方式标明人工智能生成的内容,有助于降低人工智能生成的欺骗内容的危险性。例如,Google DeepMind 宣布推出一种添加水印的工具 SynthID,为谷歌的文生图模型 Imagen 生成的图像添加水印,在不影响图像质量的前提下标识人工智能生成的内容,向公众提示深度合成情况。二是风险监测。建立舆情监测机制和举报投诉入口,并及时响应和处置。


三、未来大模型攻防的预测


随着深度学习技术的生长和研究的深入,未来大模型的攻防将在动态抗衡中不停升级,同时,大模型需要应对的新型宁静威胁也将不停涌现和升级。包罗图灵奖得主约书亚·本吉奥(Yoshua Bengio)在内的 19 人团队,探讨了意识的客观存在的尺度和评估框架,证明了人工智能现在的能力和形态在这个评估框架之下暂时还不切合意识的尺度,但凭据目前的生长趋势,人工智能生长出意识不存在客观的障碍。OpenAI 前首席科学家、联合首创人伊尔亚·苏茨克维(Ilya Sutskever)在一次采访中体现,ChatGPT 可能已经具备了某种意识,新的优先级的事情是要阻止超级人工智能干坏事。未来可能面临以下新型宁静问题。


一是自适应反抗攻击。随着大模型变得越发庞大,攻击者可能会开发出能够自适应模型防御机制的高级反抗性攻击,这些攻击可能在大模型更新或变换时迅速演化。二是深度伪造与信任� ;�。利用大模型生成的深度伪造内容将越发传神,这可能导致公众对数字媒体的信任度下降,引发社会层面的信息验证� ;�。三是人工智能辅助的自动化攻击。人工智能技术自己将被用于自动化攻击流程,实现快速识别系统漏洞、自动生成攻击脚本,大幅提高攻击效率和威胁级别。四是伦理和执法合规性问题。随着大模型在更多敏感领域的应用,如医疗、司法等,它们必须切合更高的伦理和执法尺度。未来可能会泛起更多关于大模型决策过程和结果的合规性争议。五是大模型的可解释性和透明度问题。大模型的决策过程往往不够透明,这可能导致在要害领域中难以对其输出结果进行验证和信任。未来可能会泛起更多要求提高峻模型可解释性和透明度的需求。



本文刊登于《中国信息宁静》杂志2024年第6期