大模型监管观察：英美、欧盟如何规制ChatGPT训练数据？

区块链巴士 2023-5-10 00:03 19817人围观资讯

图片来源：由无界 AI工具生成

ChatGPT，一款由美国科技公司OpenAI于2022年11月30日发布的AI聊天机器人，一经面世便引发全球热议。随着其热度不断升高，与之相关的诸多版权争议受到广泛关注，训练数据侵权问题便是其中之一。

作为语言生成式模型，ChatGPT训练数据由大量文本数据组成。目前各国对生成式AI训练数据的使用仍未单独制定成文法规定，但域外对文本与数据挖掘（Text Data Mining，后称“TDM”）技术的法律规制却具有重要借鉴意义。TDM指的是利用自动分析技术分析文本与数据的模式、趋势以及其他有价值的信息，是以计算机为基础的，从文本或数据导出或组织信息的过程。

[1]从技术原理来看，ChatGPT训练数据库的建构与TDM均以文本和数据输入为基础，二者在著作权法上具有相似意义。而在法律层面上，基于制度衔接与法律秩序稳定性的考量，针对使用主体、使用目的、使用方式、限制条件等问题，二者的法律适用应当存在一定程度上的延续与联系。因此，本文将围绕ChatGPT训练数据之合理使用展开分析，从比较法视野分析英国、欧盟、美国及中国对TDM所制定的合理使用制度，继而分析现行法律框架下ChatGPT所实施的数据挖掘行为是否具有合法性依据。

ChatGPT数据挖掘原理与侵权风险

ChatGPT是一种基于自然语言处理（NLP）的AI系统，使用了深度神经网络和自然语言处理技术来生成文本，其工作原理可分为三个阶段：数据输入——机器学习——结果输出。自然语言处理AI的训练数据通常由大量文本数据组成，当中包含了语言的各种形式和用法。

ChatGPT训练数据的使用流程[2]：

1. 数据收集：从各种来源收集原始数据。

2. 数据预处理：将原始数据进行清洗和标准化，以便后续处理和分析。

3. 数据标注：将数据进行标注，为机器学习提供训练数据。

4. 特征提取：从标注好的数据中提取特征。

5. 模型训练：对训练数据进行分析和学习。

6. 结果生成：输出生成物。

ChatGPT的训练过程中涉及到大量文本数据的使用。尽管OpenAI并未公开当前版本ChatGPT所使用的GPT-3.5语言模型数据量，但从公开数据来看，GPT-3语言模型由1750亿参数训练而成，由此迭代而来的GPT-3.5语言模型显然需要更庞大的数据量作为支撑。[3]

ChatGPT主要依赖于两种文本数据源，即用户输入内容和训练数据库。关于用户输入内容，根据《使用条款》规定，用户输入的内容将作为ChatGPT学习的文本数据之一。如果用户不同意此使用方式，可以通过邮件等方式拒绝授权而不会影响其正常使用。[4]关于ChatGPT的训练数据库，其数据来源可大致分为三种。

第一种，来源于公有领域的内容。公有领域内容指的是不属于私人所有，任何人可以不受限制地使用和加工的数据，包括本身便不受法律保护的内容及已过著作权保护期间进入公有领域的内容。

第二种，通过签订合同获得合法授权的内容，即通过与权利人签订合同从而获得有效授权，合法使用相关数据及内容。

第三种，未经授权的信息及内容。该来源指的是数据及内容本身为受著作权保护的客体，而ChatGPT在未经授权的情况下对相关内容进行挖掘使用，其获取渠道通常为利用“爬虫”技术获取网络数据及内容、非法获取数据库内容以及未经许可数字化非电子数据内容等方式。

通过上述方式所构建的训练数据库，由于涉及未经授权使用受著作权保护的数据及内容，因此天然具有著作权侵权风险。

在我国现行《著作权法》框架下，ChatGPT训练数据使用过程的不同行为均可能存在著作权侵权风险。首先，在数据内容收集阶段，训练数据的使用或构成复制权侵权。数据收集的方式有两种形式，分别是将非数字格式的原内容转化为计算机可读的数据格式，即“原件扫描”，或是对他人已有数据进行访问和获取文本内容。训练数据的输入过程必然伴随着相应的复制行为。

目前学界认为，ChatGPT数据挖掘过程中的复制行为不属于因数字环境传输中“暂时的”、“在技术过程中必然发生的”，且“不具有独立经济价值”的“临时复制”情形，因此除非存在法定豁免情形，否则ChatGPT数据内容挖掘行为可能构成复制权侵权。实际上，ChatGPT在数据挖掘过程中，往往并非只将数据短暂复制于系统中，而是需要将作品数据长时间停留，继而便可能涉及到对作品的永久性复制。尽管当前各国对“临时复制”的法律性质存在争议，但对永久性复制应当归入复制权规制范围却存在共识。

其次，在数据预处理阶段，训练数据的使用或构成演绎权侵权。演绎权指的是在原作品创作思想表达的基础上演绎创作新作品的权利。我国《著作权法》并未采纳“演绎权”这一术语，而是在演绎权的概念上进一步分解为翻译权、改编权、汇编权等权利。但归根结底，演绎权及其分解而来的权利核心在于原作品的主要思想表达并未因创作语言、题材、种类或形式的变化而改变。而ChatGPT在数据预处理阶段，涉及对所收集数据进行清洗、标准化、标注与特征提取等步骤，存在侵犯改编权等权利的风险。

最后，在结果生成阶段，训练数据的使用也可能构成与传播相关的权利侵权。因ChatGPT会依据训练数据自动化生成结果，并以可视化方式表现，过程中需要将数据或文本通过互联网进行传输，从著作权法角度显然也会涉及侵权。

ChatGPT数据挖掘行为本身具有高度复杂性，在所涉著作权内容不同的情形下，其侵犯的权利也会有所不同，上述仅对可能涉及的侵权风险作非穷尽式列举。关于ChatGPT在实际应用场景下的侵权形态与风险，应作个案具体分析。

域外视角下的TDM合理使用制度——英国、欧盟、美国与中国之比较

著作权合理使用制度，即在符合特定条件情形下，法律允许他人可自由使用受著作权保护的客体而无须经由著作权人同意，抑或是向著作权人支付相应报酬，为著作权限制与例外的核心制度之一。当ChatGPT训练数据未经授权使用受著作权保护内容，并且涉及到作者的独创性表达及造成公众传播效果时，便可能构成著作权侵权。

此时需要进一步判断其是否构成合理使用。合理使用的制度目的在于平衡著作权人对作品享有的专有权利与公众获取作品的需求，促进创新和文化多样性发展，保障公众基本利益。就生成式AI训练数据的合理使用规则而言，大多数国家尚未单独制定成文法规定。但各国针对TDM所制定的合理使用规则，对当下ChatGPT数据挖掘行为的合理使用制度适用具有重要指引作用。[5]

英国

作为最早制定《版权法》的国家之一，英国是合理使用制度的开创国，也是最早对TDM通过立法方式确定其合法性的欧洲国家。2014年修订的《版权法》新增了第29A条TDM版权例外规则条款，当中允许为了非商业性研究的文本和数据挖掘目的，利用计算机分析技术对已经合法获得访问的任何版权材料进行复制。[6]可见英国通过立法形式明确为TDM应用赋予了合法性，以防止版权成为阻碍相关技术创新发展的阻力。

不过值得注意的是，英国同样为相关立法设置了许多限制条件。英国虽未对行为主体设定限制，却在客体上将TDM合理使用范围限定为“合法获得访问的版权材料”，即行为人本身应当具备合法访问相关版权材料的资格。英国也对“使用目的”作出了限制，规定只有基于“计算机分析”和“非商业性使用”目的的TDM属合理使用范围，即排除了不以计算机处理、分析数据为目的的行为及具有盈利性质的商业性使用。

具体来看，ChatGPT的技术厂商OpenAI最初的定位虽为非营利组织，但其自2019年起便开始转型为营利性组织，ChatGPT的数据挖掘、使用行为难以被定性为“非商业性使用”。在使用行为上，ChatGPT训练数据的使用过程可能涉及版权意义上的多个行为，包括复制、改编与传播。

而英国《版权法》第29A条只针对TDM的复制行为提供了合法性支持，对其他行为则未设置侵权豁免，因此相关行为仍存在侵权风险。除上述条件外，英国也规定了权利限制的例外情形，指出未经版权人授权将TDM过程中产生的复制件进行交易，包括出售、出租、许可等行为仍会构成侵权。

整体而言，英国《版权法》给予TDM一定的实施空间，同时也兼顾了版权人的利益。但由于ChatGPT等生成式AI在数据挖掘与使用行为上所具有的复杂性，其在英国《版权法》框架下未必能够适用合理使用规则。

欧盟

欧盟委员会在2016年9月公布了《欧盟数字化单一市场指令》提案，随后于2019年3月通过了《数字化单一市场版权指令》（下称《版权指令》），对TDM的使用制定了版权例外规则。

《版权指令》第3条、第4条规定，基于“科学研究”与“数据分析”两种目的，并且作品为合法获取的情形下TDM具有正当性。从法律条文来看，欧盟同样通过封闭性规范的方式将TDM列入了合理使用范围，并且对TDM版权例外制度的适用设定了相应限制条件。

针对以“科学研究”为目的的TDM，欧盟将主体限制为科研及文化遗产机构。换而言之，由于ChatGPT的发行厂商OpenAI不符合相关主体要求，因此不能适用《版权指令》第3条所规定的版权例外规则。而针对以“数据分析”为目的的TDM，《版权指令》第4条实际上赋予了TDM在数据处理阶段使用行为的合法性，该例外不存在主体限制或使用技术目的限制，即使是出于商业性使用目的也同样适用。

在客体条件上，欧盟与英国都将其限定为以合法途径获取的作品。ChatGPT在数据收集、预处理阶段可能涉及多种权利侵权，而该条中只为过程中的复制、提取行为规定了版权例外，但对其他类型行为则未明确说明。

整体而言，在欧盟《版权指令》合理使用制度下，行为人享有作品的阅读权即可享有作品的挖掘权，但需要为副本的保存提供安全措施。

美国

不同于英国、欧盟以立法形式明确将TDM列入合理使用范围，美国采用了基于四要素标准与司法判例为指导的开放性立法。美国《版权法》第107条规定了合理使用制度，即以四要素作为判断标准，通过综合分析使用者的使用是否符合相关法定要素来判断该使用是否为合理使用。

具体而言，四要素标准指的是：

（1）使用目的和性质。第一要素包括该使用是商业性使用或者是基于非营利性教育目的之使用。一般而言，若被告对版权作品的使用为商业性使用，则不属于合理使用；但若使用是基于非营利性教育目的，则更有可能被视为合理使用。但自Campbell案[9]后，美国法院认为在商业性使用能明显增进社会效益时，应当以“转换性使用”作为判断标准而忽略商业性使用目的。而“转换性使用”的内涵是对原创作品进行某种程度上的改编、转化或转换，以产生新的表达形式、意义或价值的行为。

（2）版权作品的性质。法院在分析第二法定要素时，需要考虑的是究竟被使用的作品是描述事实的叙事作品或创作性很强的虚构作品。通常来说，作品的创作性越强，就越应受到法律保护。

（3）被告的使用占版权作品的数量和质量。第三个法定要素要求对使用行为不仅要进行定量分析，还要进行定性分析。

（4）被告的使用对版权作品市场的影响。第四个法定要素的重点在于，若被告的使用行为减少了版权人的收益，则被告的使用可能会被认定为不合理的使用。[10]

基于四要素标准，ChatGPT对训练数据的使用有相当可能性被认定为转换性使用，继而受合理使用制度保护。事实上，从司法判例来看，美国法院整体也对TDM持相对开放的立场，当中最具代表性的案件便是美国“谷歌图书馆”案与“TVEyes”案。

谷歌图书馆案（Authors Guild v. Google Inc）[11]

美国“谷歌图书馆”案是由谷歌图书馆计划引发的全球诉讼系列案件之一，谷歌公司在未经授权的情况下将图书数字化并收录到其搜索引擎中，这些书籍包括已出版的和未出版的作品。

2013年，美国纽约地区法院对此案作出一审判决，认为谷歌扫描图书的行为构成合理使用，不构成版权侵权。2015年10月，美国第二巡回法院确认了一审法院的判决，认为谷歌图书馆属于合理使用，不构成侵权。

在论及谷歌图书馆对原告作品的使用目的时，美国第二巡回法院认为谷歌未经授权将受版权保护的书籍进行电子扫描、设立搜索功能并将上述书籍的片段在网络上显示的行为属于非侵权式的合理使用。谷歌所采取的扫描行为是高度转换性的，其显示的文字数量是有限的，而向公众提供的只言片语也不会与原作品构成竞争或替代关系。因此，即便谷歌是一家追求利润的商业公司，这也不妨碍认定谷歌图书馆的行为属于合理使用。[12]

TVEyes案（Fox News Network, LLC v. TVEyes, Inc）[13]

在“TVEyes”案中，TVEyes公司提供的搜索引擎可以对主流电视节目进行实时监控和搜索，用户可以根据关键词检索快速定位到感兴趣的节目，并可查看不超过10分钟的节目剪辑内容，也可以对相关片段进行保存、下载。

福克斯新闻公司在2014年向法院提起诉讼，指控TVEyes公司侵犯其版权，并要求TVEyes停止提供相关服务。此后，其他电视网站也加入了诉讼行列。

最终，美国第二巡回法院认可TVEyes将大量电视节目片段复制归档，并向用户提供关键词搜索等服务的使用行为具有变革性，对原作品构成转换性使用。但却同时认为TVEyes允许用户对相关节目片段进行查看与下载并不合理，将可能对版权人的市场地位与许可收入造成实际损害。最终法院判决TVEyes对相关作品的传播构成版权侵权。

上述两个案件展现了美国司法裁判中对TDM合理使用的整体态度。在美国“谷歌图书馆”案中，美国法院认定谷歌公司基于向公众提供搜索和片段浏览服务目的而对原告作品进行全文复制的行为具有“目的转换性”，强调司法实践中应当对四要素标准作综合考量。“TVEyes”案则显示出在法院已将TDM前期阶段的使用行为认定为合理使用的情形下，倘若相关技术实施者未采取必要技术以降低对原作品权利人的替代性影响，仍可能存在侵权风险。

相较于美国“谷歌图书馆”案与“TVEyes”案中原告的使用行为，ChatGPT经过对训练数据的学习而生成结果的使用行为显然更具有“转换性使用”意义。因此，在美国《版权法》合理使用制度框架下，ChatGPT的数据挖掘行为有相当可能性得以构成合理使用。

中国

区别于英国、欧盟与美国为TDM制定了合理使用规则，TDM目前尚未被涵盖在我国《著作权法》第24条所列举的12种法定著作权例外情形中。换而言之，当前国内的著作权例外制度无法为TDM的实施提供合法性依据。

我国《著作权法》第24条规定了12种合理使用情形。然而，ChatGPT对训练数据的使用难以被该12种法定情形所保护。ChatGPT的数据挖掘行为并非为“个人学习”“教学或科研”“公共文化机构”所使用，且本质上属商业性使用，难以直接援引该条作为侵权抗辩。因此，值得进一步讨论的便是ChatGPT的数据挖掘行为能否落入《著作权法》第24条兜底条款的保护之中。从案例来看，兜底条款实际上同样难以为ChatGPT的数据挖掘行为提供法律依据，在部分案件中可见国内法院对TDM著作权侵权问题的整体态度。

A作者诉B公司数字图书馆案[14]

本案中，原告A作者是某书籍的作者及著作权所有人。被告B公司获得了涉案作品的纸件版本并将涉案书籍进行扫描。随后，B公司将扫描的图书片段开放给旗下搜索引擎，从而使互联网用户从搜索结果中看到涉案作品的片段。

在讨论B公司数字图书馆的扫描书籍及通过搜索展示书籍片段的行为是否构成著作权的“合理使用”时，法院首先指出，B公司的涉案复制行为并不属于《著作权法》（2010）第22条规定的合理使用行为，故应初步推定为构成侵权。但随后又提出，鉴于实际的司法实践中，法院已在部分案例中认定《著作权法》（2010）第22条规定之外的其他特殊情形也可构成合理使用，故如果B公司能够主张并证明其涉案复制行为属于合理使用的其他特殊情形，那么该行为也可被认定合理使用。

关于如何判断涉案的复制行为是否构成《著作权法》（2010）第22条规定之外的合理使用特殊情形时，法院提出应综合考虑以下相关因素，包括（1）使用作品的目的和性质；（2）受著作权保护作品的性质；（3）所使用部分的性质及其在整个作品中的比例；以及（4）被告的使用行为是否影响了原告作品的正常使用或不合理地损害著作权人的合法利益等。

在综合考虑了上述因素之后，法院认为在本案中，B公司未能针对上述因素提交相关事实证据，故驳回B公司关于合理使用的抗辩，认为其图书馆行为构成侵权。 [15]

从中美类案判决的对比来看，在面对相似案情与抗辩理由时，两国法院在判断相关行为是否构成合理使用时得出了相反结论。在中国“A作者诉B公司数字图书馆”案中，法院认为在《著作权法》（2010）第22条规定的具体情形外认定合理使用，应当从严掌握认定标准，而被告应当对考量因素中的事实问题承担举证责任。但该案中被告B公司并未充分举证其涉案行为属合理使用，因此法院最终推定其使用行为构成侵权。由此可见，依据当前《著作权法》相关规定，ChatGPT的数据挖掘行为被中国法院认定为合理使用具有难度，仍存在较高侵权风险。

上述观点也可以从2023年4月11日国家互联网信息办公室起草的《生成式人工智能服务管理办法（征求意见稿）》中得到印证。该征求意见稿回应了公众关注的生成式AI若干问题。其中第7条对生成式AI产品/服务的数据来源作出规制，明确规定提供者应当对生成式人工智能产品/服务的预训练数据、优化训练数据来源的合法性负责，不应含有侵犯知识产权的内容。[16]换而言之，该征求意见稿并未对TDM设置著作权例外，一定程度显示出我国立法动向仍对认可TDM合理使用持保留态度。

结语

信息获取与知识共享是数字经济的基础。随着人工智能领域高速发展，在可预见的将来仍会不断涌现涉及他人著作权作品的新型使用行为。当前部分国家已对数据挖掘、使用行为设定了著作权例外制度，尝试在科学技术的发展与著作权人的利益保障之间取得平衡。

我国《著作权法》目前尚未对数据挖掘制定著作权例外规则，相关技术在中国的实施仍具有侵权风险。但数据挖掘作为人工智能时代的基础性技术，合理使用规则的缺失必然会限制信息自由流动与创新发展。为了促进科技领域发展，我国应当保障数据挖掘技术的流通与应用，平衡著作权人利益与公共利益的冲突，建构旨在驱动创新的合理使用制度。

抖音出手规范AI生成内容！全球监管呼声四起,数字水印会是一剂良方吗？ ... RENEC区块链开启技术新时代：引入增强的安全性、可扩展性和用户授权 ...