
本文来自微信公众号:星夜律途云开体育,作家:王帅宾 lawyer,原文标题:《本事无罪,但“姿势”得对:拓荒者若何通过 AI 正当握取数据?》,头图来自:AI生成
最近在圈子里流传着一句话:“爬虫写得好,牢饭吃到饱。”诚然是打趣,但也反馈了当下数据聚集濒临的严峻法律环境。AI的出现让数据握取变得前所未有的浮浅——应用LLM解析复杂网页、自动绕过反爬、以致模拟东谈主类行为。
但本事技巧的升级,并不代表法律底线的后退。今天,咱们从刑事讼师的角度,聊聊AI时期握取数据的“安全准则”。
一、悬在头顶的三把“法律之剑”
在动代码之前,你得先知谈哪几个场地是“雷区”:
1.《刑法》第285条(行恶获得盘算机信息系统数据罪):浮浅说,若是你冲突了对方的本事留心措施(比如暴力破解、强行绕过考证码),岂论你握什么,齐可能涉嫌此罪。
在司法实施中,司法机关聚焦于本事技巧的行恶性、数据性质及数目认定。
(1)本事技巧的行恶性是定罪要道:法院在裁判中明确指出,袭取SQL注入罅隙、编写特定爬虫剧本入侵系统、进行“撞库”报复等方式获得数据,均属于“袭取其他本事技巧”的行恶获得行为。举例,在(2019)鲁0213刑初144号中,被告东谈主辩称其使用SQL注入罅隙及爬虫剧本获得的是网站页面公开信息,但法院觉得其行为是侵入盘算机信息系统获得里面存储的无数数据,其中包含约1500万余条个东谈主信息,故组成行恶获得盘算机信息系统数据罪,且情节相配严重。二审法院在(2020)鲁02刑终108号中进一步强调,即使数据自身可能部分公开,但通过入侵特定网站罅隙的方式批量获得,该本事技巧自身具有行恶性,不影响犯警的拓荒。
(2)数据性质与数目认定的司法态度:对于获得的数据是否属于“身份认证信息”或其他盘算机信息系统数据,以及数目的盘算,法院有明确的认定例则。在(2014)昌刑初字第844号中,法院认定行恶获得企业用户通讯录16000余组组成“情节相配严重”,驳回了申辩东谈主对于该信息不属于身份认证信息、应认定为“情节严重”的申辩看法。这标明,司法实施中对“盘算机信息系统数据”作广义瓦解,不限于严格好奇好奇上的身份认证信息。同期,对于数目的认定,除非有左证证据信息不真确或叠加,不然一般根据查获的数目径直认定。
2.《刑法》第傻头傻脑十三条之一第三款(骚扰公民个东谈主信息罪):握取的数据里若是包含身份证号、手机号、家庭住址等,且你莫得正当授权,这便是在峭壁边舞蹈。
筹商司法解释正式律例了该罪的入罪门径,举例,行恶获得行踪轨迹信息、通讯内容、征信信息、财产信息五十条以上;行恶获得住宿信息、通讯纪录、健康生理信息、来覆信息等其他可能影响东谈主身、财产安全的公民个东谈主信息五百条以上;行恶获得上述两类之外的公民个东谈主信息五千条以上;或者监犯所得五千元以上,均组成“情节严重”。达到上述数目门径十倍以上的,组成“情节相配严重”。
在司法实施中该类案件严格适用数目门径,并关爱信息的敏锐性与用途。
筹商司法判决无边严格适用司法解释的数目门径来认定是否组成犯警及情节严重进度。举例,在(2018)冀0425刑初283号中,被告东谈主行恶获得公民个东谈主信息94506条,被法院认定为“情节相配严重”。在(2021)鄂0105刑初22号中,被告东谈主购买公民个东谈主信息492,582条,相似被认定为“情节相配严重”。这显现,一朝通过本事技巧批量握取个东谈主信息并达到法定数目,刑事风险极高。
3.《反不高洁竞争法》:若是你握取的数据是对方的中枢买卖资源(比如天下点评的辩论、携程的栈房价钱),且你的居品和对方存在竞争相干,对方分分钟能告到你家贫壁立。
在此咱们用几个经典案例来辨析不高洁竞争的法律规模。
(1)平台对数据聚会享有竞争法上的正当权力。
平台策动者对其干预资源形成的数据聚会享有受法律保护的竞争利益。在《(2017)京0108民初24512号》中,法院觉得,微梦公司为运营新浪微博、珍爱数据安全付出了资本,涉案数据(明星动态)是新浪微博居品的蹙迫基础,微梦公司可基于其对涉案数据享有的策动利益,依据反不高洁竞争法提议方针。
法院指出,数据已成为策动者竞争的基础性资源,当策动者为网罗、整理、珍爱数据付出资本,且数据举座可为其带来策动利益时,其他策动者未经许可私自握取且使用平台数据的行为,可受反不高洁竞争法退换。近似地,在《(2021)浙0110民初2914号》中,法院认定微播公司行为抖音运营者,就直播数据举座干预了运营资本,该数据举座好像为其带来竞争上风,享有竞争法上的正当权力。
(2)组成不高洁竞争的要道考量身分:本色性替代与毁伤。
司法实施强调,判断握取行为是否组成不高洁竞争,需抽象评估是否对原平台形成本色性替代或毁伤。在《(2017)京0108民初24512号》中,法院从多个方面论证了云智联公司行为的毁伤性,包括:碎裂微梦公司设定的访谒和展示功令;部分版块径直、完竣展示数据,使得用户无需回到新浪微博,组成本色性替代;分流潜在用户流量,影响告白等买卖收益;增多微梦公司奇迹器压力和运营珍爱资本;可能导致用户个东谈主信息露馅,碎裂数据安全。这些身分共同组成了对微梦公司正当权力的毁伤。
相背,在《(2019)京0108民初33822号》中,法院觉得江苏斑马公司诚然握取了著作,但著作存在于网站前端,原告未选拔反爬虫机制,被告也未碎裂本事措施,且被告未对握取的著作进行同质化应用,未篡夺原告竞争上风或形成毁伤,故不组成不高洁竞争。该案标明,单纯的握取行为若未形成毁伤效劳,可能不被认定为不高洁竞争,但前提是技巧高洁且未进行竞争性使用。
(3)对公开数据握取的合理容忍与限制。
平台对公开数据的握取负有一定容忍义务,但该容忍并非无穷制。在《(2017)京0108民初24512号》中,法院指出,基于互联网互联互通精神,平台策动者应当在一定进度上容忍他东谈主正当网罗或应用其平台中已公开的数据。然则,若是握取公开数据的技巧不高洁(如碎裂展示功令、伪装用户、违背Robots条约),或握取鸿沟大、后续使用形成本色性替代,则该握取行为仍可能被认定为不高洁。法院强调,对于公开数据,需逢迎数据数目、鸿沟、价值以及是否形成本色性替代等身分抽象判断。
二、AI握取的“合规操作指南”
应用AI握取数据时,请务必盲从以下“不翻车”原则:
1.尊重robots.txt:这是“正人协定”的底线
诚然robots.txt在法律上不具备强制性,但在司法实施中,它常被视为判断“主不雅坏心”的蹙迫依据。若是对方明确不容握取,而你应用AI伪装成平方用户强行进入,这在法官眼里便是澄莹的“行恶侵入”。
2.严禁“暴力握取”,约束AI的频率
AI剧本不错作念到极高的并发量,但请记着:若是你的握取行为导致对方奇迹器宕机或响应逐渐,这可能组成“碎裂盘算机信息系统罪”。
建议:在AI爬虫逻辑中加入立时延时,模拟东谈主类浏览频率。
3. “去记号化”处理:数据的二次清洗
AI在解析握取到的非结构化数据时,应自动过滤掉敏锐个东谈主阴私。
讼师指示:握取公开信息(如微博公开言论)相对安全,但若是波及无数用户画像、玄妙应付相干,必须立即罢手。
4.躲避“本色性替代”原则
这是最容易被残忍的极少。你不错握取数据作念盘考、作念锤真金不怕火,但若是你的AI居品径直展示了对方的数据,导致用户不再去原网站,这就组成了“不高洁竞争”。
三、面对“背约”风险:ToS果然灵验吗?
许多网站的《用户条约》(ToS)里写着“严禁任何方式的爬虫”。
民事层面:若是你注册了账号并勾选了条约,那么握取行为就属于背约。
隐秘决议:AI握取时应尽量在未登录情景下访谒公开页面。一朝登录,你就在法律上承认了对方的“家法”。
四、避坑CheckList(建议储藏)
在你的AI握取款式上线前,请对照以下列表自测:

结语
行为讼师,我常说:本事是为了经管问题,而不是制造问题。AI让数据获得变得举手之劳,但法律对“规模”的界说从未改革。
握取数据前,先问我方三个问题:
我拿了谁的东西?
我是奈何拿的?
我拿来作念了什么?
若是这三个问题的谜底齐能经得起法庭的讨论,那么你的AI之路才会走得更远。
本文来自微信公众号:星夜律途,作家:王帅宾 lawyer