China Behavioral Law Society Development Network

中国行为法学会事业发展网
  • 中国行为法学会第六届四次理事会在京召开
  • 沉痛悼念马宝善同志
  • 中国行为法学会医疗健康法治研究专业委员会战略合作研讨会在京召开
  • 学会动态 | 第二届“澜沧江—湄公河次区域”国际法治论坛在云南警官学院举行
  • [完整版|图文]《中国法治实施报告(2022)》隆重发布
  • 《企业商事刑事风险防范指引丛书》 启动交流会在京召开
  • 中国行为法学会侦查学专业委员会第十四届全国侦查学术研讨会暨第七届现代侦查技战法论坛在浙江绍兴召开
  • 《民营经济促进法(草案)》征求意见座谈会在长沙举行
  • 为人民抒怀、为时代放歌 《人民就是江山》——大型公益原创歌曲交响 音乐会在京举办

   时政要闻

高永明、马光远:网络爬虫的规制逻辑:行政监管前置的路径提倡

来源:《吉林大学社会科学学报》2024年第3期 | 作者:管理员 | 发布时间 :2026-03-03 14:11:05 | 50 次浏览: | 分享到:



网络爬虫的规制逻辑:行政监管前置的路径提倡



高永明

(扬州大学法学院副教授)

马光远

(海南大学法学院博士研究生)


[摘  要]

网络爬虫是网络时代的必须技术,但也容易被滥用于违法犯罪。其边界的模糊性导致法律规制的诸多障碍,主要体现为监管规制的迂回与缺失,司法评价的无序和矛盾,刑事上体现为罪名适用不稳定,摇摆于数据犯罪和数据承载的内容犯罪之间,过于夸大绕过robots.txt的规范意义,有滥用数据犯罪之嫌。对此,理论与实践大体形成两种规制路径:一是依据robots.txt明晰爬虫边界;二是根据网络爬虫效果即利益衡量原则判断其行为边界。然而,robots.txt合同化存在民法上的规范和法理障碍,不具有理论说服力;利益衡量原则在数据犯罪与民事法的评价中同样无法提供稳定标准,本质上是逃避对网络爬虫行为边界的划定。因此,将行政监管前置化具有必要性,这不仅能够为各部门法提供爬虫边界判断的有效指引,还能够协调民刑判断趋于一致。监管前置并不意味着重回“一刀切式”的硬性标准,而是逐案对网络数据爬取行为进行行政确认。在具体措施上,应诉诸“robots.txt特别认证”与“反反爬特别授权”制度,并赋予各方申诉权利。司法上则应推定监管规范的有效性,从而将“行业标准”规范化,借此正当化并限定robots.txt的规范填补功能,进而为司法提供明确指引。

[关键词]

网络爬虫;司法规制;监管前置;行政规制


近年来,随着数据类违法犯罪的案件量大幅蹿升,“网络爬虫”成为高频词汇,也引发了理论和实践困惑。对网络爬虫的规制路径,司法部门或倾向于就爬虫工具本身设置是非界限,如将robots.txt视为法律界限,或倾向于笼统地以利益衡量原则判断爬虫工具的活动范围,例如学界所提倡的“场景化判断”即主张“根据具体场景中各方的合理预期来确定相关主体的数据权益”。然而,从规范评价的现状来看,“公布的判决书也暴露出其刑民难分的困境”。现有文献对网络爬虫技术多有基础性介绍,其中不乏详细的解剖式说明。技术上,数据爬取行为依赖爬虫机器人的自动化运行,其基本流程为:1)发送HTTP请求;2)解析响应;3)提取链接;4)访问链接;5)存储数据;6)控制爬取速度及范围;7)数据清洗和处理。这7个步骤虽是网络爬虫需要执行的基本步骤,但并不是必需步骤,因为不同爬虫具体的运作方式和目的可能有所不同,例如有些爬虫只需要访问网站上的数据,不需要进行存储和处理,如此则可以省略存储数据、控制爬行速度、数据清洗和处理的步骤,也就不涉及获取型数据侵权或犯罪、虚拟财产侵权或犯罪以及著作权侵权或知识产权犯罪,因为此类侵权或犯罪行为以数据载体或内容信息的获取为前提。此外,有些爬虫可能需要执行其他特定的任务,如自动化测试、数据采集、信息搜索等,因而对前述7个步骤同样可能是跳跃性地实施。因此,在讨论网络爬虫的法律规制问题时,应当避免仅对前述步骤作局部分析。当前网络爬虫的规制缺乏立法规则和理论学说的明确性,难以确定爬虫行为的边界,需要以跨部门法的视野作系统性研讨。

一、网络爬虫边界模糊的规制难题

当前对涉网络爬虫的监管措施尚未从数据载体本身出发,较为迂回,未能为网络爬虫设置行动边界。由于行政监管的缺位,实践中涉网络爬虫的刑事与民事案件的裁判逻辑较为纷乱。

(一)监管缺位加剧网络爬虫边界的模糊性

我国对网络爬虫的监管较为迂回,即间接地保护数据所承载的内容或保护被访问的计算机信息系统,而缺乏对爬虫行为本身的限制措施,从而加剧了网络爬虫边界的模糊性。监管上的间接规制措施主要涉及以下四个方面:

一是个人信息。网络爬虫在抓取网页数据时可能会获取用户的个人信息,需要遵守《中华人民共和国个人信息保护法》等相关法律法规,从而保护用户的个人信息不被滥用和泄露。一些恶意爬虫可能会利用网站漏洞和弱点,获取网站的敏感信息、用户个人隐私等,对网站和用户造成严重损害。恶意爬虫的泛滥常导致个人信息安全被逐渐侵蚀,因为爬虫机器人不仅检索以HTML编写的网页内容,还可以检索文档和图像等文件。此类危害时常见诸报端,例如2023年2月12日晚,在即时通讯软件Telegram上,某机器人爆出超45亿条国内个人信息遭到泄露,包括真实姓名、电话、地址等信息,并公开了免费查询渠道。该机器人管理员提供的截图显示,遭泄露的数据量为4 541 420 022条(45亿),数据库大小为435.35GB,数据总量极为庞大。针对个体的隐私和信息泄露事件也早有发生,例如2012年便有报道称,“国内某公司员工郭某给别人发了封求职的电子邮件,并且该Email存储在某邮件服务公司的服务器上。因为该网站没有设置robots协议,导致该Email被搜索引擎抓取并被网民搜索到,为郭某的工作生活带来极大困扰”。

二是知识产权。网络爬虫在抓取网页数据时也可能涉及著作权、版权、专利等知识产权问题,需要遵守《中华人民共和国著作权法》等相关法律法规。此类问题大多见于利用爬虫实施的网络外挂行为。

三是网络安全。网络爬虫可能会对网站造成流量负荷和安全风险,因此需要遵守《中华人民共和国网络安全法》等相关法律法规。如果大量爬虫同时访问同一个网站,会对网站的带宽和服务器资源造成压力,导致网站响应速度变慢甚至瘫痪。以法律界使用频率极高的“裁判文书网”为例,2020年8月31日,《人民法院报》曾刊文说明:“当前存在部分公司利用相关技术非正常渠道获取裁判文书数据,造成网站负荷过大,大量正常用户请求堵塞,出现访问速度慢或部分页面无法显示等现象……”,此处提及的“相关技术”即网络爬虫。其他如“国家企业信用信息公示系统”等公共服务网站同样常因网络爬虫的滥用而拥挤不堪。又如2018年春运期间,12306(中国铁路网)最高峰时段页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次,其中恶意爬虫访问占据了近90%的流量。爬虫行为对服务器资源的消耗不仅损害了网络服务提供者的商业资源,也给普通用户带来极大的不便,而如果网站提供的是公共服务,还会造成公共服务的瘫痪,扩大间接损失。

四是市场竞争。在商业领域,一些公司可能会利用网络爬虫技术获取竞争对手的商业机密和数据,也可能利用反爬措施限制竞争对手合理获取商业数据。例如,有些网络爬虫可能会擅自获取网站上的数据和信息,从而实施盗用、侵权等行为,此时盗用者通过编写网络爬虫程序,自动化地抓取目标网站的数据。在这个过程中,爬虫程序可以自由地模拟各种操作,如模拟用户访问网站、模拟用户点击链接、模拟用户输入等,从而快速地抓取到目标数据。在抓取到目标数据后,盗用者可以通过各种手段篡改数据或者擅自使用数据。盗用者可以将原本开放的数据改为私有数据,或者将数据用于非法目的,如进行垃圾邮件营销、实施网络诈骗等。近年来,网络爬虫威胁数据安全的案例不胜枚举。例如2021年终审的“北京微梦创科网络技术有限公司与北京字节跳动科技有限公司不正当竞争纠纷案”、2017年终审的“百度在线网络技术(北京)有限公司等与北京奇虎科技有限公司不正当竞争纠纷案”以及刑事案件“上海晟品网络科技有限公司等非法获取计算机信息系统数据案”等,均以获取或限制获取商业数据为目的。

前述四个方面的监管并非直接保护被自动访问的网站正常运行,而是保护被爬取数据所承载的内容法益,且对爬虫工具本身并未设定界限。

美国对网络爬虫的行政监管思路与我国并无大的差别,其监管部门同样是从爬虫工具所引发的内容法益扰动而非工具本身出发对网络爬虫进行规制,且主要涉及两方面内容。一是知识产权保护。美国通过《数字千年版权法》(DMCA)来保护数字版权,该法律规定,未经授权地爬取网站内容、破解加密技术或者规避数字版权保护措施等行为均属于侵权行为,应受到法律追究。二是个人隐私保护。美国通过《计算机欺诈与滥用法案》(CFAA)来规范网络犯罪,该法律规定,未经授权的访问或获取计算机信息、数据或者服务,都可能构成违法行为,而条文中所谓的访问又大多需要用到爬虫工具。在堪称正式法律渊源的监管性规范之外,中美两国都有行业自治性质的软规范,属于广义的监管,例如中国互联网协会于2012年11月1日发布的《互联网搜索引擎服务自律公约》第8条规定,互联网站所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争,积极营造鼓励创新、公平公正的良性竞争环境。和中国互联网协会类似,网络爬虫联盟(The Web Crawler’s Consortium)也是非官方组织,由一群网络爬虫程序员自发组成,旨在分享网络爬虫的技术、经验。该组织的目的是推广网络爬虫技术的合理使用,并防止滥用该技术,但其并没有监管权力,只是提供了一些准则和建议,以帮助开发人员遵守行业道德规范。

   通知公告

  • 暂无相关记录!
【编辑:杨昊一