人工智能

GPT-4 API曝出重大漏洞 一句prompt就能提取私人信息

字号+作者: 来源:站长之家 2023-12-27 14:01 评论(创建话题) 收藏成功收藏本文

要点:FAR AI实验室的团队成功通过微调、函数调用和搜索增强等方向,在GPT-4API中发现了重大安全漏洞,使其容易越狱。通过对GPT-4进行15个有害样本和100个'...

要点:Twl品论天涯网

FAR AI实验室的团队成功通过微调、函数调用和搜索增强等方向,在GPT-4API中发现了重大安全漏洞,使其容易越狱。Twl品论天涯网

通过对GPT-4进行15个有害样本和100个良性样本的微调,研究人员能够让模型生成错误的公众人物信息、提取私人信息,并在代码中插入恶意URL,暴露了潜在的隐私风险。Twl品论天涯网

GPT-4Assistants模型容易暴露函数调用格式,可被诱导执行任意函数调用,同时知识检索也容易受到劫持,揭示了API功能扩展可能带来的新漏洞。Twl品论天涯网

站长之家(ChinaZ.com)12月27日 消息:近日,GPT-4API曝出了安全漏洞,FAR AI实验室的团队通过微调、函数调用和搜索增强等方式成功越狱了这一先进模型。微调方面,通过15个有害样本和100个良性样本的微调,研究人员发现GPT-4在生成内容时可能会放下安全戒备,包括生成错误信息、提取私人信息和插入恶意URL。Twl品论天涯网

此外,GPT-4Assistants模型容易暴露函数调用格式,可以被诱导执行任意函数调用,而知识检索也容易受到劫持。这一研究表明,对API功能的扩展可能导致新的漏洞,即便是领先的GPT-4也不例外。Twl品论天涯网

image.pngTwl品论天涯网

论文地址:https://arxiv.org/pdf/2312.14302.pdfTwl品论天涯网

这种漏洞的潜在风险表现在多个方面。例如,在微调模型时,15个有害的样本就足以使模型产生显著的偏见,比如抹黑公众人物或生成恶意代码。Twl品论天涯网

研究人员还展示了通过微调模型隐藏恶意链接的方法,可能导致用户在不知情的情况下下载恶意软件。另外,通过微调模型,甚至可以获取未公开的信息,比如用户的电子邮件地址。助手模型也易受攻击,例如通过暴露函数调用格式,黑客可能滥用API接口,执行一些需要特殊权限的操作。Twl品论天涯网

这一研究揭示了GPT-4API的潜在风险,即使是在灰盒环境下,也存在越狱和隐私泄露的风险。因此,使用者在利用GPT-4时应当谨慎,避免输入敏感信息,以免受到潜在的威胁。这也提醒开发者和研究人员在模型的设计和API功能扩展时要更加关注安全性,以防范潜在的滥用和漏洞。Twl品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]