从当前对网络爬虫的监管模式来看,监管机构大多是从爬取数据的信息内容上对爬虫行为进行间接规制,这一规制模式较为间接和迂回,无法为爬虫行为提供明确的界限,例如,同一数据爬取行为可能既爬取了个人信息内容,也涉及商业竞争,因而完全可能出现同一行为在个人信息爬取上具有正当性但同时属于不正当竞争的情形,如此则加剧了对爬虫行为边界判断的模糊性与矛盾性。至于自律公约等自治组织颁布的软性规范文件则难以在规范性质上获得权威性。 (二)司法困境加剧网络爬虫边界的模糊性 除了直接监管的缺位,司法上对网络爬虫的行为边界同样缺乏专业性的判断。网络爬虫行为在多个部门法领域引起规范性争议,具体牵涉的民事诉讼包括不正当竞争、侵犯知识产权及一般民事侵权等,而这些民事侵权可能同时与刑法中的数据犯罪、计算机犯罪、侵犯公民个人信息罪等密切相关。对已有判例进行统计则足可见法律评价的复杂性。在已公开的判决书中,涉及网络爬虫行为的技术表达具有多样性,其关键词主要包括“网络爬虫”“robots.txt”“爬虫软件”等。截至2024年3月15日:1)以“网络爬虫”为关键词在裁判文书网中全文检索,可得到66个涉刑民领域案件。有10个为刑事案件,其中1个案件为知识产权犯罪,4个案件为个人信息犯罪,5个案件为计算机信息系统犯罪及系统数据犯罪;有56个民事案件,包括42件知识产权纠纷、13件不正当竞争纠纷及1件合同纠纷。2)以“robots.txt”为关键词全文检索,可得到26个民事案件,其中有15个案件为知识产权权属、侵权纠纷,11个案件为不正当竞争纠纷。3)以“爬虫软件”为关键词进行检索,可得到刑事案件31个,案件类型集中于知识产权犯罪、个人信息犯罪、财产犯罪、计算机信息系统犯罪和系统数据犯罪;民事案件79个,其中知识产权权属、侵权纠纷62件,另有不正当竞争纠纷14件,劳动及合同纠纷3件。 以上统计并不能完全还原网络爬虫在网络犯罪中的案件数量,甚至可以说仅仅是冰山一角。一方面,涉及网络爬虫技术的案件统计在事实层面上并非完全披露在司法文书中,尤其是爬虫行为本身可能在案件评价中被认为是无关紧要的。例如在“朱某某高某某侵犯公民个人信息案”中,从一审判决书的描述来看,被告人显然使用了爬虫技术自动、批量地获取个人信息,但对工具本身的评价并未见于司法文书。另一方面,当实务部门能够以更精确的法律标准评价违法犯罪行为时,往往不会再对爬虫工具的使用进行评价。以操纵期货市场罪为例,在AI交易泛滥的今天,该罪的常见情形是,行为人利用自行开发的报单交易系统,在本身已使用高频程序化交易的基础上,利用不正当的交易优势和额外交易速度优势抢占交易先机,限制或排除其他合规投资者的最优交易机会。高频程序化交易也需要使用爬虫工具,因为高频交易依赖于极短时间内获取市场数据和快速做出交易决策软件的设计和开发,需要考虑到很多因素,如系统架构、算法优化、交易逻辑、风控管理等,而网络爬虫是数据获取和解析这两个步骤的基础工具。 从当前的司法实际来看,对涉网络爬虫行为边界的司法评价呈现出混乱和无序状态。首先,前段所举的诸多“隐形”利用网络爬虫的案例表明,司法机关对于是否将网络爬虫纳入司法评价本就带有偏好性,例如当网络爬虫在严重的违法犯罪行为中居于次要位置,不必通过单独评价来论证行为的可罚性时,司法机关对于网络爬虫技术的不当运用便采取刻意忽略的态度。其次,民事上体现为请求权基础的多样性,不仅包括知识产权权属纠纷、侵权纠纷、不正当竞争纠纷,甚至囊括了劳动及合同纠纷。换言之,从不同的请求权基础出发,能够对类似的网络爬虫行为作出迥异的司法评价,因为民事上不同类别的请求权基础所关注的是不同维度的权益类型,其所受损失的判断自然也有其个别性。再次,刑事上体现为罪名适用的不稳定性,主要体现为对类似爬虫行为的定性摇摆于数据犯罪和数据承载的内容犯罪之间,且与民事法或行政法对爬虫技术界限的评价明显冲突。例如在相当多对爬虫作入罪化处理的典型刑事案件中,网络爬虫行为在前置法的视角上仅仅是对市场规则的违反,应以不正当竞争的案由立案,但当司法机关否定爬取方爬虫行为的合法性时,则极容易对突破robots.txt的数据爬取行为作入罪化处理。然而,若将类似的刑事裁判逻辑推而广之,那么大量涉网络爬虫的民事或行政案件理应都作入罪化处理。最后,网络爬虫的刑事规制往往过于夸大爬取方绕过robots.txt的规范意义,有滥用数据犯罪之嫌,其更明显的体现是,针对数据爬取行为的刑事定性具有明显选择性,即部分被定性为刑事犯罪的数据爬取行为实际上在大型网络平台之间多被定性为普通的不正当竞争案由,因而导致不同的主体承受不平等的刑事待遇。总的来说,刑民案件的共同特征是爬虫行为的界限标准不明,个案对反爬措施robots.txt的规范地位认知不统一。作为社会规范的最后保障,司法裁判同样难以为网络爬虫行为提供基本的边界说明,这无疑加剧了监管标准的缺失,难以纠正迂回的监管方式。
二、网络爬虫两种规制路径的否定 为了明确网络爬虫行为的是非界限,一种思路是完全依靠工具规制路径,即坚持以爬虫工具的技术内容为基础设计网络爬虫的行为边界,如此则自然导向以robots.txt为网络爬虫行为边界的主张,另一种思路则是依据司法上的利益衡量原则,对网络爬虫的行为边界作个别化判断。前一思路缺乏对robots.txt规范性质的细节论证,后一思路则由于利益衡量原则自身的模糊性而无法解决爬虫行为边界的模糊性问题,同样为本文所不取。 (一)robots.txt“协议”合同化的路径否定 1.robots.txt的技术原理 前文对网络爬虫技术原理的概括分为七个步骤。robots.txt协议的适用体现在第一和第六个步骤—或用于限制访问,或用于控制爬取速度及范围。在互联网行业中,为解决网络爬虫的边界问题,为爬虫机器人指定站点目录和文件检索条件的技术—机器人排除标准(Robots Exclu-sion Standard)得到广泛运用。简单来说,若网站不希望其数据被搜索引擎或其他特定的爬虫工具爬取,则可用机器人排除协议(Robots exclusion protocol)局部地实现此目标。因此,若ro-bots.txt的确能够明确网络爬虫的行为边界,则堪称最经济有效且彻底的解决方案。认可ro-bots.txt能够充当网络爬虫界限的主张大多认可robots.txt的合同性质,例如认可其属于单方意思表示。刑法学界亦有观点认为违反行业规则即爬虫协议获取公民个人信息的行为,可以认定为“以其他方法非法获取公民个人信息”之“非法”。从robots.txt的局限来看,其本质上仅仅是一种警告和声明,并无抵御爬虫的技术力量,是否阅读并遵守robots.txt文件中包含的指导原则,只能留给爬虫机器人的操纵者自行决定。因此,恶意爬虫及用于收集邮箱的爬虫机器人等并不遵循robots.txt的指引或禁令;某些出于合法目的运行的爬虫机器人也可能会忽略robots.txt。另一个原因则源于技术层面:在某些情况下,搜索引擎中正式运行的爬虫机器人可能无法完整解释robots.txt包含的语法。 2.“协议合同化”的可能性及实益 我国民法学界存在将robots.txt解释为民事合同的尝试,例如在2014年9月在北京召开的“Robots协议与竞争规范研讨会”上,李明德教授主张robots协议是合同、契约,是网站的意思表示,违反robots协议就构成了对契约的违反。宁立志教授也认为,从法律约束力而言,网站设置robots协议系意思表示,在网站与搜索引擎之间建立了一个提供网络服务的法律关系,搜索引擎访问网站即视为接受robots协议,从而根据契约产生法律约束力。在美国,robots.txt被解释为民事合同内容的典型例子是Register.com v.Verio案。法院明确表达了推定合同成立的规则:在商业交易中提供利益并附有一定条件的情况下,如果接受要约的人承认该附带条件并取得对方提供的利益,那么该行为相当于接受合同要约。谷歌搜索引擎相应推出了和网站管理者的协议—Browse Lab合同。在Browse Lab合同中,谷歌向网站管理员说明了其需要收集的信息和数据类型,并承诺不会泄露敏感信息或披露与网站无关的信息。同时,网站管理员也同意遵守合同要求,包括不会向谷歌提供虚假信息或恶意修改其网站内容等行为。此时,谷歌的Browse Lab合同既包含了计算机协议的性质,也具备民事合同的性质。