随着chatgpt的快速兴起,其数据安全与监管问题亦成为各国关注重点。意大利个人数据保护局宣布从3月31日起禁用chatgpt,限制openai处理意大利用户信息数据。美国总统拜登4月4日表示,人工智能是否危险还有待观察,并强调科技公司有责任确保其产品在公开之前是安全的。加拿大、法国、德国、爱尔兰也可能加强对chatgpt的监管。此外,韩国三星、日本软银等企业近日亦表达了对chatgpt可能泄露公司机密材料的担忧。在数据安全问题凸显、监管加强的大背景下,chatgpt及类chatgpt产品是否可能走上“其兴也勃焉,其衰也忽焉”的发展路径?其数据安全问题怎样看待、怎样应对?对我国(科技、政策、安全等方面)有何启示?对此,中国计算机学会(ccf)青年计算机科技论坛(yocsef)广州分论坛学术委员会于4月9日举办特别论坛——“数据安全,是否chatgpt的阿喀琉斯之踵?”,共议人工智能发展新时期的数据安全问题、挑战与对策。
此次论坛由yocsef广州现任主席、华南农业大学数学与信息学院黄栋副教授和yocsef广州候任主席、暨南大学学院计算机科学系主任龙锦益教授共同担任执行主席,特别邀请了华南师范大学计算机学院郝天永教授、中山大学智能工程学院沈颖副教授、广州熠数信息技术有限公司首席运营官蓝靖作为引导报告嘉宾,邀请了华南农业大学数学与信息学院院长黄琼教授、广州大学网络空间安全学院苏申教授作为思辨嘉宾。yocsef广州往届主席谭台哲(广东工业大学)、往届副主席高静(广东恒电信息科技股份有限公司董事长),yocsef广州现任/候任ac委员及委员胡建芳(中山大学)、陈俊颖(华南理工大学)、蓝连涛(华南农业大学)、梁鹏(广东技术师范大学)、刘同来(仲恺农业工程学院)、刘雷(广东科技报)、李昊(广州思涵技术有限公司)、张天豫(广汽研究院),yocsef桂林ac委员魏金占(桂林航天工业学院),广州熠数信息技术有限公司首席执行官陈杨轲、技术总监方伟,以及来自省内多所高校及企事业的代表共30多人参加了此次论坛活动。
论坛首先由华南农业大学数学与信息学院院长黄琼代表承办单位致辞。黄琼对参加此次特别论坛的嘉宾表示欢迎,并对华南农业大学数学与信息学院的基本情况和学院的特色研究进行了概述。黄琼指出,chatgpt是人工智能领域的一个新突破,对诸多领域产生了巨大影响,引起了社会热议,期待此次论坛可以围绕chatgpt的数据安全与隐私保护问题进行深入思辨。
在论坛引导发言环节,华南师范大学计算机学院郝天永教授以“chatgpt与可信人工智能立法”为题,从chatgpt的原理、人工智能生成内容(aigc)、chatgpt遭遇的数据安全挑战、世界各国在数据安全方面的法律法规、我国在数据治理上的法治体系建设的现状和发展趋势进行了系统介绍。郝天永认为,人工智能立法要从数据、算法、算力三个维度,建立多元共治的法治新模式。在数据侧,应从数据产权、数据流通、数据要素收益分配、数据要素治理四个方面,建立健全人工智能数据治理的法律体系。在算法侧,应从算法的公平性、透明性、包容性、可控性和可问责性等可信属性,建立完善人工智能算法治理的法律体系制度。在风险侧,应加强风险评估模型研究,完善人工智能产品风险分级分类体系和技术标准体系,建立人工智能产品风险治理的法律体系制度。
图1 华南师范大学郝天永教授作引导报告
中山大学智能工程学院沈颖副教授以“chatgpt:自然语言处理研究、应用与思考”为题,从自然语言处理的发展脉络和研究现状、chatgpt的应用场景等方面展开介绍。沈颖指出,chatgpt由于使用了更大的语料库、更高的计算能力和更加通用的预训练,其准确性、适应性和学习能力等性能都有了大幅度提升,但也仍面临着诸多技术性问题和合规性问题,例如无法解答专业性较强的问题、对不熟悉的问题随意编造假答案、训练时使用数据未经授权等。
图2 中山大学沈颖副教授作引导报告
广州熠数信息技术有限公司首席运营官蓝靖以“流动的数据安全——llm模型的达摩克利斯之剑”为题,从大语言模型的内生数据安全、业务数据安全等方面介绍了chatgpt面临的数据安全问题,进而将之比喻为“落下的达摩克利斯之剑”,从数据安全严格的合规处罚,数据泄漏可能给个人、企业和国家安全带来的严重后果等方面进行分析,指出三方应密切合作,筑牢数据安全屏障。
图3 广州熠数信息技术有限公司首席运营官蓝靖作引导报告
在引导报告之后,论坛进入思辨环节。会场各位嘉宾围绕“chatgpt带来哪些新的数据安全问题?”“chatgpt的数据安全问题,解决之道在何处?” “chatgpt与数据安全,未来如何同行?”三个议题展开了深入思辨。
思辨议题一:chatgpt带来哪些新的数据安全问题?
chatgpt是人工智能领域的一个新突破,给人们带来了诸多便利的同时,也引起了各国政府及民众对其数据安全问题的关注。chatgpt产生了哪些数据安全问题?在这些问题中何为旧疾、何为新症、其根源在于何处?对此议题,与会人员进行了探讨。
华南农业大学数学与信息学院院长黄琼教授认为,chatgpt带来的数据安全问题有多个方面,一是数据内容安全,chatgpt在一些问题的回答上可能带有双标性,针对不同主体(或国家)的同一个问题却可能生成不同的答案内容,对提问者可能产生误导。二是数据投毒攻击,如果提供给chatgpt的训练数据带有倾向性,则其提供的答案也可能带有倾向性。三是数据泄露问题,当越来越多的企业和单位接入gpt服务,员工可能误用或滥用gpt服务,甚至将单位内部数据和敏感数据输入到人工智能平台,而当平台截留这些数据作为算法模型的语料时,就产生了数据泄露的风险。同时,黄琼也认为,当前人工智能服务虽然仍存在相关数据安全问题有待解决,但其可以为人们的生活、工作提供便利,也可以进一步为安全方面的研究提供助力。
华南师范大学郝天永教授认为,当算法模型的复杂性大到一定程度、数据的相互连通达到一定规模时,就会出现所谓的“智慧涌现”效应,从而使chatgpt在诸多功能上呈现爆发式的增长和增强。但是,涌现会产生何种数据连接,以及与之伴生的知识产权问题,仍是一个广受关注的前沿新问题。除了数据泄露、个人隐私保护等传统“旧疾”外,随着数字经济的到来,在数据的生产、流通和使用三个环节中,还产生了数据的安全可控、弹性包容和数据要素治理等“新症”。这些问题的根源在于,当使用人工智能服务时,个人、企业、政府等不同利益主体对数据使用的利益有不同诉求,并呈现复杂共生、相互依存、动态变化的特点。
广州熠数信息技术有限公司首席运营官蓝靖认为,除人工智能领域的传统数据安全问题之外,chatgpt等聊天机器人也带来数据越狱等新问题,例如通过提示语注入等方式,引导人工智能模型去绕过其已有的伦理、道德或开发锁定的模式,甚至绕过相关政策法规的限制,将训练集核心数据和关键文档“套取”出来。此外,数据窃取问题也是一个新问题。当前一些小模型可能通过数据窃取技术从大模型中偷取数据,例如斯坦福大学发布的alpaca模型,可通过175个种子任务,将其与chatgpt等大模型平台互动过程得到的回答内容来构建其训练所需的数据集,以解决训练数据集这一人工智能模型的核心问题。对此,yocsef广州现任主席、华南农业大学黄栋副教授也进行了补充,chatgpt等人工智能模型带来的新问题,很大程度上源于其“互动性”。例如三星公司员工泄露企业机密材料的问题,当其员工与chatgpt进行交互时可能录入敏感数据,而在chatgpt的“黑盒子”中,这些互动数据在未征得用户同意的情况下流向何处、是否被用来再训练,则未知。此外,数据越狱、数据窃取等新问题,也伴随其强大的互动性而产生。
yocsef广州候任ac委员、广汽研究院张天豫认为,数据霸权加剧的问题也是chatgpt等人工智能大模型带来的“新症”。少数大公司拥有海量数据,享有数据霸权,在其产品抢占先机、与大量用户交互过程中产生了更为庞大的问答数据,则又加剧其数据霸权;虽然我国有不少企业拥有大量数据,但是距离微软、谷歌等世界级数据拥有者仍有很大差距。在当前数据基础条件及国际环境因素之下,国内企业如何突破这些限制,是一个值得深入探讨的新问题。
广州熠数信息技术有限公司技术总监方伟表示,除个人级的数据泄漏之外,企业级的数据泄漏也是一个值得关注的问题。openai开放了chatgpt的平台接口,企业可以调用其接口来进行应用,但由此也带来了数据出境等新问题。国家对数据出境有相关的政策法规,但在chatgpt开放接口、许多企业接入其接口的情况下,因chatgpt的服务器在境外,使得原本不涉及数据出境问题的一些企业也面临相关风险,这就给数据出境和跨境安全方面的国家监管与行业要求带来了新的挑战。
现场进一步论及chatgpt作为数据生成者而衍生的安全问题。yocsef广州ac委员、广州思涵信息科技有限公司总经理李昊提出,chatgpt既是海量数据的获取者与使用者,同时也是一个强大的数据内容生成者。当chatgpt迅速普及应用时,其所生成数据也可能向全社会注入一些不可靠的、有误导性的、有偏向性的信息。由于互联网的广泛性和公开性,chatgpt生成数据内容的真实性、合规性、伦理性等方面也是不容忽视的新问题。yocsef广州ac委员、广东技术师范大学梁鹏副教授提出,过去伪造信息需要一定的技术手段,有较高的技术门槛,而chatgpt则可能使得普通人能够更轻易地生成真假难辨的虚假信息,并借助互联网在短时间内广泛传播。黄栋指出,chatgpt在数据生成者的角色上,除数据真实性问题之外,也带来了数据凯发k8官网下载客户端的版权问题。chatgpt可以说是海量数据的集大成者,但也可能成为海量数据的大抄手。对于音乐作品,模仿一段旋律可能就涉及抄袭,而对于人工智能模型所生成的文章、图像,其生成的作品要素可能来自于不同创作者的原创作品,此时涉及的作品凯发k8官网下载客户端的版权怎样判断、怎样规范也是新的挑战。当议及数据窃取问题时,人工智能内容生成模型可能也会带来无声无息的“创意窃取”问题。
yocsef广州委员、华南理工大学陈俊颖副教授指出,chatgpt是数据生成者,甚至也可能成为工具生成者。chatgpt已经可以写代码,以其迭代速度,或许在不远的将来,发钓鱼邮件、写木马病毒、发现系统安全漏洞也将在(未来)chatgpt能力范围内。网易公司开发工程师江东林认为,一方面,chatgpt使得很多“旧疾”加重,例如个人隐私保护、数据泄漏等;另一方面,现有chatgpt功能已非常强大,若其发起网络攻击、发布虚假信息,法律责任怎么界定?郝天永对此作了补充,指出这个问题在“数据二十条”已经作了规定:谁生产谁负责,谁投入谁受益。
yocsef桂林ac委员、桂林航天工业学院魏金占教授提出,在足够“大”的模型与足够“大”的数据下,或出现“智慧涌现”,甚至机器也可能产生意识。当机器出现自我意识并与人类竞争时,未来人工智能大模型会不会窃取科研人员的前沿思维和创新思路? yocsef广州候任副主席、仲恺农业工程学院刘同来副教授提出,chatgpt的意识性或越来越强,如何限制其对用户形成诱导,特别是消极思想的诱导,也是未来值得研究的问题。主持人附议之,人工智能模型为我们提供服务的同时,我们也成为了人工智能模型的素材提供者。那么,现在是我们在用数据训练模型,但未来模型是否会在不知不觉间用数据训练人类?这或许是科幻,或许是未来。
思辨议题二:chatgpt的数据安全问题,解决之道在何处?
chatgpt的数据安全问题,哪些可以解决,哪些难以解决?解决之道在何处?对于这些议题,yocsef广州候任副主席、广州大学苏申教授提出了几方面观点。一是数据源安全方面,已有相关的法律法规和管理制度,可以认为是可解决、或基本可解决的问题。二是数据投毒方面,可能涉及到对舆情的影响,也可能进一步涉及舆情攻防的解决方法。三是重要数据与敏感数据方面,在应用服务与接口上应有相应的监督与管理。四是数据跨境方面,当前虽然有相关政策法规,但仍是一个开放问题。在隐私保护方面,通过多方安全计算、同态加密、联邦学习等技术手段可以得到一定的解决,但在实际应用中则仍面临较多复杂情况。此外,在攻防层面,chatgpt虽然可能降低攻击者的门槛,但实际上防御技术也在智能化,也可以从人工智能技术发展过程中受益。
河源广工大协同创新研究院常务副院长谭台哲提到,香港特区政府财政司司长陈茂波近期表示,对于web 3.0的发展,应监管与推动并重。谭台哲认为,对于chatgpt等人工智能大规模,也应适当监管与推动发展,两者并重。当新技术刚出现、新情况尚未摸透之时,政府部门可以用好现有的政策、技术工具,对新技术、新情况分门别类地进行监管。黄栋认为,chatgpt的数据安全问题,一方面应在人工智能技术发展与安全之间找到平衡之处,监管过紧可能限制甚至扼杀新技术的发展,监管过松则可能使得新技术被滥用;另一方面也涉及个人、企业、政府的三方博弈,而在此过程中,个人端与企业端都有其自发性,政府及政策法规则是非常重要的调节力量。怎样找到人工智能发展与数据安全的平衡区域,找好个人、企业、政府的角色与定位,亦非常考验监管智慧。
方伟表示,所有能归纳为技术的问题往往都可以解决,包括数据脱敏、分类分级管理等问题;政策法律法规的完善也是很好的推动,但最不容易解决的问题是“人”的问题。对于数据安全问题,国家还需要加大培训与宣传力度,增强数据安全的意识。同时,从法律上监管和规范人的行为,明确法律责任,提高违法成本。郝天永强调,人工智能模型的数据安全问题解决之道,除了政策、技术、人才,还应有相应的法律法规,人才是基础,技术是驱动,政策是引导,法律是保证。
李昊指出,对于这些问题,我国现在已有很多政策和法律法规,例如针对数据的采集与使用有《数据安全法》《个人信息保护法》,针对内容生成有《互联网信息服务深度合成管理规定》。当前较难解决的问题有两个方面,一是多数人工智能模型的不可解释性,二是数据投毒(数据带有倾向性)。而其不可解释性及潜在的倾向性,在各国人工智能模型的竞争过程中也会对使用者产生影响。梁鹏认为,对chatgpt的监管,应是主动监管与被动监管相结合。被动监管是指在内容发生之后的政策与技术层面监管,主动监管则应在第一时间利用技术手段对虚假信息或有害信息进行识别与限制,防止其不良影响扩大。对此问题,高校层面的主要着力点应在于进行与主动监管相关的技术研究与人才培养,政府层面则应在拥抱人工智能新技术的同时理解新技术发展规律,更好地着力于被动监管。华南农业大学数学与信息学院邱少健博士提出,虽然有政策法规及企业规定可以对员工行为进行约束,但“人”的因素是难点,可以借助技术手段针对人工智能模型的交互信息及模型生成的内容及时发现问题、及时应对问题。
思辨议题三:chatgpt与数据安全,未来如何同行?
论坛思辨环节的第三个议题是“chatgpt与数据安全,未来如何同行?”,亦涉及“数据安全问题,是否chatgpt的阿喀琉斯之踵?”和“对我国在科技、政策、安全等方面有何启示?”等子议题。对此,苏申认为,chatgpt作为新生事物,本身还有很多弱点,还谈不上战神阿喀琉斯,更谈不上阿喀琉斯之踵。与许多以前的新技术(互联网、移动电话)类似,在新技术诞生之初,人们往往更关注其性能问题,然后才逐渐转向其安全问题。对于数据安全问题,方滨兴院士《人工智能安全》一书对数据安全问题作了分类,可分为内生安全问题和衍生安全问题。对这些问题,我国应提高技术的自主可控性,提升模型的可解释性和可追责性。
针对技术自主可控性,华南农业大学数学与信息学院李宏博博士指出,chatgpt的不少数据安全风险(数据投毒、数据出境),也一定程度因其源自国外、不可控。中国企业也应发展自己的“chatgpt”, 模型规模可以小一些,亦可针对特定应用领域,不一定在性能上相匹敌,但应有、应可用。除技术自主可控之外,谭台哲进一步提出“数据自主可控”问题,具体涉及模型训练数据和用户交互数据的本地化。
中山大学智能工程学院沈颖副教授表示,当前人工智能大规模发展,技术是壁垒,数据更是壁垒,而许多领域的用户数据更是难以获得,至于如何将其用于模型训练更无从谈起。从安全角度,chatgpt等人工智能模型的弱点仍多,数据安全或非其唯一弱点或最大弱点(阿喀琉斯之踵);而从人工智能发展角度,监管过紧可以使得模型无数据可用,此时则不仅可能成为chatgpt的、也可能成为各类人工智能大规模的“阿喀琉斯之踵”。 郝天永进一步指出,“数据孤岛”问题是人工智能发展的一大困扰,要促进人工智能领域发展,政策法规要做好引导性和促进性的两者兼顾。对ai产品或数据的风险分类分级是当前要务,应建立ai产品和数据的评估检测技术和支撑体系,并完善相关法律法规的体系。
李昊则从企业的角度提出,企业往往关注于chatgpt等人工智能模型的工具属性,在合理、合规的前提下可以使用人工智能模型来提高生产经营效率,但是会对输入数据和输出数据做安全性处理、禁止将涉及企业机密及安全的数据输入到chatgpt。同时,也会对人工智能模型的输出内容进行安全监管、审查和改进。
蓝靖认为,人工智能模型的数据安全问题由来已久,而chatgpt的迅速兴起则将一些既有问题放大、暴露出来。数据安全问题,可能是人工智能发展过程遇到的绊路石之一,但不是人工智能本身的弱点。政府、企业、个人等各方都应提高数据安全意识,筑好数据安全屏障,这样才能更好地避免其对人工智能产业发展的阻碍。
谭台哲认为,除了数据安全问题,chatgpt等人工智能模型还有很多其他问题。国家不可将之扼杀,但同时应做好监管,在适当监管下推动其发展。对于chatgpt的数据安全问题,以至于数据霸权和自主可控等问题,我国应该高度重视并制定相应对策。同时,应加强对“人”的事前宣传教育和事后可追责,并加强人工智能新技术的专业人才培养。魏金占亦提出,应对chatgpt的数据安全问题,应在源头上控制和制度上设计。
yocsef广州候任主席龙锦益提出,人工智能的数据安全问题一直存在,政策、法律和法规常常跟不上技术的发展;而由于技术的快速发展,从特定阶段“跟不上”到逐步“跟上去”一定程度也是其必然发展规律。除了政策法律法规之外,个人和企业也应遵守基本道德和底线,对于高校人才培养来说,加强工程伦理教育以及更具体的人工智能伦理教育,也非常有必要。
广州熠数信息技术有限公司首席执行官陈杨轲认为,chatgpt等人工智能模型归根到底是一个工具,可以用,但需要监管。当前已有《数据安全法》《个人信息保护法》,近期国家也建立了国家数据局,表明国家在机构设置与法律法规等方面已有布局,正在紧跟新技术的发展。chatgpt与数据安全未来可以同行,也必然同行。
图4 现场热议
此次论坛历时三个多小时,yocsef广州现任主席黄栋副教授对此次论坛进行了总结。此次论坛围绕chatgpt的数据安全问题进行了深入思辨,探讨了chatgpt带来的新问题及其根源、人工智能大模型数据安全问题的解决之策、未来人工智能模型与数据安全的同行路径,以及chatgpt对我国在科技、政策、安全等方面的启示,希望可以为应对人工智能发展新阶段的数据安全问题提供新的思考与有益的借鉴。
此次论坛由ccf主办,yocsef广州学术委员会、华南农业大学数学与信息学院和暨南大学信息科学技术学院承办,广东恒电信息科技股份有限公司为此次活动提供了赞助支持。
图5 嘉宾合影留念