China Behavioral Law Society Development Network

中国行为法学会事业发展网
  • 中国行为法学会第六届四次理事会在京召开
  • 沉痛悼念马宝善同志
  • 中国行为法学会医疗健康法治研究专业委员会战略合作研讨会在京召开
  • 学会动态 | 第二届“澜沧江—湄公河次区域”国际法治论坛在云南警官学院举行
  • [完整版|图文]《中国法治实施报告(2022)》隆重发布
  • 《企业商事刑事风险防范指引丛书》 启动交流会在京召开
  • 中国行为法学会侦查学专业委员会第十四届全国侦查学术研讨会暨第七届现代侦查技战法论坛在浙江绍兴召开
  • 《民营经济促进法(草案)》征求意见座谈会在长沙举行
  • 为人民抒怀、为时代放歌 《人民就是江山》——大型公益原创歌曲交响 音乐会在京举办

   时政要闻

高永明、马光远:网络爬虫的规制逻辑:行政监管前置的路径提倡

来源:《吉林大学社会科学学报》2024年第3期 | 作者:管理员 | 发布时间 :2026-03-03 14:11:05 | 57 次浏览: | 分享到:

在此前提性认知上,本文主张在后一监管模式下绘制网络爬虫监管的基本图景。这不仅是因为《数据安全管理办法(征求意见稿)》的立法使然,还是因为当前互联网生态并非处于完成时,各类新兴的数据产权层出不穷,而数据确权也因其技术和规范难度正处于发展的进行时。数据爬取行为中的爬取方和被爬取方均应纳入监管对象。对此,行政许可或行政确认具体可以通过行政监管环节的备案与许可制度加以落实。

在行政监管环节设置程序化的备案与许可流程可作如下具体构想:

第一,明确网络数据爬取及反爬取的协同监管主体及对象。协同监管在当前的社会发展阶段并不是新鲜事物,而是各领域监管的刚需,例如可参照《国务院办公厅关于深入推进跨部门综合监管的指导意见》(国办发〔2023〕1号),对网络数据爬取及反爬取行为的监管设计相应的基础构思。首先是确定跨部门综合监管事项清单。该意见对跨部门监管的愿景被表述为“直接关系人民群众生命财产安全、公共安全和潜在风险大、社会风险高的重点领域及新兴领域中涉及多部门监管的事项,要积极开展跨部门综合监管”。数据爬取监管符合前述监管事项的特点。至于数据爬取及反爬取监管的对象范围,则应当围绕《国务院办公厅关于深入推进跨部门综合监管的指导意见》所指出的“事项清单”进行动态更新—2023年底前,各地区各部门通过“互联网+监管”系统对跨部门综合监管重点事项实施清单管理和动态更新。就网络爬虫目前所涉及的规范评价范围来看,主要涉及的部门可能包括国家网信部门、国务院电信主管部门、公安部门、市场监督管理部门和其他机关,对网络爬虫的监管设置综合监管机构。之所以要设置综合各职能部门的监管机构,概因网络爬虫中的数据爬取行为与反爬行为所涉及的法益类型过于多元,难以仅仅从局部法益出发对其进行简单化规制。对数据爬取行为或反爬行为的合规性审查需要经过知识产权、反不正当竞争、个人信息、数据安全、计算机信息系统安全等多方面的检验,若无协同机制则难以应对监管评价中变量的多元性。在这一思路的指引下,针对网络爬虫中爬取方与反爬方的程序化许可,则可针对网络爬虫各个步骤分别制定限定与允许的具体标准,从而纠正当前网络爬虫监管的单维度倾向:目前针对网络爬虫的监管方式多局限于数据的下载存储这一数据获得型爬虫行为,而对于发送请求、访问的前置性步骤则缺乏相应的法律规范,例如,虽然我国在个人信息、财产和知识产权保护等涉及数据承载内容方面已有比较全面的监管措施,但在数据载体本身以及网站正常运行的保护法益上缺乏对应措施。对爬虫技术中发送请求及访问的前提步骤仍有待行政监管层面的规范填补,而各类监管主体均应当从爬虫技术中爬取行为的各个环节及反爬措施的各个环节进行分步骤的细节评价。

第二,针对被爬取方的数据利益,应建立robots.txt特别认证制度。所谓robots.txt特别认证即由综合监管程序认证合规的robots.txt具有限定爬虫行为边界的效力,该机制主要是为明确网站方限制他人爬取的权利边界。在前述所引的不正当竞争案例中,不同审级法院、不同地域法院对类案甚至同案中robots.txt协议效力的分歧大多根源于前置性监管的空白,而在备案机制下,对于大型商业主体来说,为防止数据泄露,维持竞争优势,可直接申请robots.txt特别认证。若认证失败则需撤销相应的限制爬取措施,修改其反爬措施。具言之,网站可通过编写robots.txt文件来告知搜索引擎和其他网络爬虫哪些页面可以爬取,哪些页面不允许爬取,至于robots.txt的效力如何,则可以考虑建立监管机构的备案机制,例如针对个别网络爬虫的“歧视性限制”应当交由监管机关备案,以确认其合规性,并可针对拒绝备案的大型互联网商业主体制定惩罚措施。对于规模较大的互联网商业主体来说,这一机制能够明确其商业预期,避免不必要的商业风险,因为经过特别认证后,限制其他商业主体爬取自己的商业数据不再是悬而未决的猜测。为显示robots.txt特别认证的效力,应在网站底部设置公示系统。与目前经营性网站的备案标记类似,特别认证同样可在网站页面内突出备案标记,便于告知爬取方。

第三,针对数据爬取方的利益,可赋予其数据爬取的申诉权并设置特别授权机制。对数据爬取方而言,若对robots.txt特别认证存在质疑,可向监管部门申请撤销或修正robots.txt特别认证,以满足其正常的数据使用权利。数据载体所承载的信息内容理论上可包含无限多的法益内涵,数据监管所涉的多维度法益无法穷尽考量所有的法益内容,所以应当允许针对robots.txt特别认证的质疑,并在程序上保障数据爬取方的申诉权。若申诉成功,则可以给予数据爬取方爬取特定网站数据的特别授权。之所以称为特别授权,是因为在本文的设计中,特别授权仅是针对已有特别认证备案标记的数据被爬取方,而对于中小型互联网商业主体来说,由于不存在强制的robots.txt特别认证,数据爬取方或可以按照对方已有的robots.txt规则实施数据爬取行为。但需要注意的是,爬取不存在robots.txt的网站数据或已按照robots.txt提示进行数据爬取的行为仅仅是被推定的合规行为,其对数据内容的获取仍可能构成违法或犯罪,例如部分网站存储了海量的个人信息或国家机密,即便其并未设置反爬措施,对相应数据内容的爬取也能够被评价为违法或犯罪。与特别认证相对应,在技术上可为特别授权设置明确的授权标记,以明确告知被爬取方特别授权的存在。此外,对于robots.txt中缺少特别认证备案的歧视性限制(仅针对部分网站设置的反爬措施),则可推定其不具有反爬的约束力。如此设计不仅可以鼓励被爬取方积极申请特别认证,利于监管生态的形成,还可以反向促进对自身数据缺乏投入的网站积极保护商业数据的权利。

第四,对网络爬虫进行程序化智能监管,减少人工审核的低效特征。网络爬虫行为在互联网世界属高频使用技术,若以传统的人工审核方式确认法律关系或许可主体行为极容易妨害互联网行业的商业效率。对此,应当出台自动化审核机制。在《国务院办公厅关于深入推进跨部门综合监管的指导意见》(国办发〔2023〕1号)中规定,“互联网+监管”是被突出强调的监管工具—“要依托‘互联网+监管’等现有信息系统,针对具体监管事项的风险特点,构建跨部门联合监测预警模型”。在利用robots.txt实施反爬措施或利用网络爬虫工具实施“反反爬”措施前,若行为人无法判断其行为性质,则可先行申请行政监管机构的行政确认,从而避免违法性认识缺失以及是非界限难以明知的困扰。但无论哪一方的行政确认申请,原则上均应交予流程化的算法计算两类行政确认行为的风险点,这不仅是为保证互联网的共享与开放精神能够得到效率加持,也能够减少综合性协同监管的工作压力。然而,由于数据内容法益的多元性,由算法算出的风险点仅仅具有推定的有效性。在“互联网+监管”模型中,同样应自动识别出需要人工二次审核的监管情形。除了自动筛选的人工审核类案件,还可针对互联网主体的特别申请开放人工审核作为复议机制,或允许程序审核备案失败的申请方再次申请人工审核。

第五,应在司法上明确对行政监管即行业规范的参照义务及边界。有了明确的锚定标准,则有助于避免司法标准的任意性,尤其是刑法对数据爬取行为的妖魔化。综合监管机构能够从个人信息、网络安全、知识产权、商业竞争等多方面出发,于事前评估网络爬虫行为的合法性,而这一评估结果原则上应当成为司法判断的规范指引,司法判断上无特别理由时不宜推翻其效力。此外,通过综合监管机构的过渡,部门行业自治规范还能够被间接认可为规范渊源,从而为司法认可行业自治规范提供正当性论证。行业组织、搜索引擎和其他网站可以通过合作来共同监管网络爬虫的活动,尤其是针对验证码、限制请求头、限制请求次数、反爬虫技术等问题更容易设置明确的行业准则,如有必要,可通过监管机构对行业标准进行规范化,从而将行业准则上升为明确的法规范来源,即标准的规范化。在监管上确立robots.txt特别认证与“反反爬”特别授权机制,还有利于正当化robots.txt规范填补功能,并可将其类型化。类型化与概念分类的本质不同在于其功能主义取向。概念分类注重概念的内涵和外延,常常采用概念分析的方法,通过对概念的分解、定义和阐释来解释对象的内涵,在网络爬虫问题上,以技术思维判断robots.txt的效力即概念思维的体现。而类型化思维则更多地关注具体的法律实践中的情形,着重研究如何将法律事实归类,并运用法律规则进行适用。目的上,类型化思维则旨在将法律事实归类,为法律规则的适用提供依据。就robots.txt的效力问题而言,类型化的解题方式是更合理的,而实现这一类型化的首要前提在于改变提问方式,即不对robots.txt的效力设定前见。在正式规范上,新近颁布的《数据安全法》《网络安全法》《个人信息保护法》对网络爬虫行为均不置可否,导致网络爬虫行为边界的确定只得诉诸“前置法的前置法”—行业准则。但即便是行政性法律文件,也未对网络爬虫的行为边界做出明确界定。于是,该大前提的补充不得不触及行业惯例即robots.txt。在“北京微梦创科网络技术有限公司与北京字节跳动科技有限公司不正当竞争纠纷案”中,二审法院主张,“在判断robots协议对于网络机器人限制行为的正当性时,其核心在于保护网站经营者的自主经营权与维护其他经营者利益、维护消费者利益、维护竞争秩序之间的平衡”。因此,可以说只要能够确定robots.txt填补规范的边界,即能够间接确定网络爬虫行为的界限,而这一问题又可拆解为两个思考步骤:1)行业标准能否径行填补规范漏洞?2)民事法中不同的请求权基础以及刑事法中的不同罪名,是否要在吸纳robots.txt这一行业标准的限度上保持同步?针对前一问题,民法学界对行业标准补充规范的讨论由来已久,并存在较大的理论对立。所谓标准(standard),是指“通过标准化活动,按照规定的程序经协商一致制定,为各种活动或其结果提供规则、指南或特性,供共同使用和重复使用的文件”。主流观点认为标准的制定权不属于国家权力,而属于私权范畴。换言之,若公权力并未主动引用其作为大前提,则标准原则上不成为规范。但亦有观点主张基于公权力认证推出的标准可以成为规范。本文认可标准系小前提,只有在特定情况下才可以软法的性质补充大前提,若遵循彻底的违法一元论立场,则robot.txt足以填充民法、经济法、行政法的大前提,也能够给予爬虫行为合法与非法的准确判断,否则数据爬取的行为评价只能停留于灰色地带。但根本的缺憾是,这一理论虽然具有体系性的美感,却不符合互联网的基本生态,因为一旦认可robots.txt贯穿各部门法的绝对效力,不仅违背民事合同的基本原理,还与互联网自由共享之精神相违背,甚至会存在“滥用robots.txt”的弊端。因此,对robots.txt效力的认可,应当设置一定的筛选条件。从网络生态的现实出发,可归纳为两个标准:一是否定robots.txt歧视性限制的规范效力;二是否定基于不法目的的robots.txt具有规范效力。与此同时,由于robots.txt直接解释为民事合同的可能性已被排除,应当认为,robots.txt的性质系因行业自治而诞生的软法,只有通过前述两个筛选条件,才可能获得监管机构的承认,继而获得规范性质。

   通知公告

  • 暂无相关记录!
【编辑:杨昊一