大数据倒在2019
一场大数据行业诞生以来最大规模的“地震”正在发生。
2019年9月6日,第三方数据风控公司魔蝎数据和新颜科技的相关负责人在同一天被警方带走调查,由此拉开了行业大整顿的序幕,聚信立、天翼征信、公信宝、同盾科技子公司、51信用卡、考拉征信等诸多公司也被纳入调查行列。
业内人士普遍认为,此次整顿与数据公司的爬虫业务以及数据的违规利用有关。究其本质,是对现金贷业务的整顿。
需求催生了市场。自2013年互联网金融概念兴起以来,催生了一批为网贷平台、消费金融公司、现金贷公司提供征信风控服务的数据公司,他们利用爬虫技术的成熟与国内数据信息监管的宽松,通过自有数据、爬虫抓取、金融机构二次授权、地下黑产交易等方式,野蛮生长。
伴随着国家对暴力催收、现金贷业务的监管力度加大,一批曾经风光的数据风控公司密集被调查,爬虫业务暂停,“灰产”行业人人自危。
就在12月4日,国家网络安全通报中心发文通报下架整改100款违法违规APP,其中不乏知名的樊登读书、糖豆、更美、房天下等,整改重点针对无隐私协议、收集使用个人信息范围描述不清、超范围采集个人信息和非必要采集个人信息等情形。
曾经,一度有观点认为,大数据时代来临,得大数据者得天下,电商、营销等平台把大数据作为自己核心的竞争力,殊不知,技术无罪,但技术也会成为作恶者的工具。
史上最严监管已经来临,正如业内人士所说:“大数据发展和利用从野蛮生长时代进入了正规化管理的关键时代。”
01 数据行业大地震
今年开始,互联网金融行业进入大整顿,作为现金贷风控的关键一环,提供数据支撑的第三方公司成为三季度以来的监管重点。
2019年9月6日,魔蝎数据被警方调查,高管被带走;同日,新颜科技高管被带走协助调查。9月11日,公信宝运营方杭州存信数据科技有限公司被警方查封;中秋节期间,同盾科技子公司信川科技也有相关人员被警方带走协助调查;10月21日,51信用卡委托外包催收公司因涉嫌寻衅滋事等犯罪被调查,该公司利用爬虫技术不正当窃取用户数据、滥用用户信息进行暴力催收。
这一系列整治的背后,矛头指向的是网贷。11月14日,公安部网络安全保卫局局长王瑛玮表示,今年5月25日以来,对“套路贷”实施团伙、催收团伙以及帮助“套路贷”犯罪的技术服务商、数据支撑服务商、支付服务商开展了全链条式打击。
11月20日再传出消息,江苏淮安警方打击了7家涉嫌侵犯公民个人信息犯罪的公司,涉嫌非法缓存公民个人信息1亿多条,其中,拉卡拉支付旗下的考拉征信涉嫌从上游公司获取接口后,违规将查询接口出卖。
图 / Pexels
这些被调查的公司,可能面临的共同问题是利用网络爬虫技术抓取数据并贩卖,涉嫌侵犯公民个人信息。
网络爬虫是指按照一定规则,自动抓取互联网信息的程序。这项技术并无原罪,业内不少公司会通过爬虫技术,将用户在互联网上的数据收集起来,做出更精准的用户风控模型。某数据研究院院长刘志告诉燃财经,搜索引擎、天眼查、企查查等公司都是用爬虫技术爬取公开数据,在不涉及个人敏感数据的情况下,使用这项技术没有问题。
但对于这些大数据公司来说,他们把爬虫做成了产品,并且“走了两步”。第一步是在面向用户的产品中,让个人用户填写账号密码,从公积金、社保局、信用卡中心等系统中帮用户把里面的信息拿出来,第二步是把这些包含很多个人敏感数据的信息缓存在系统,之后对外提供给高利贷、催收公司等使用。“到第一步没有问题,但到第二步就涉嫌过度采集、违规使用数据,侵犯用户隐私。”刘志说。
这些数据有多大杀伤力?新金融深度曾报道,大数据服务公司聚信立只要获取用户的手机号码和服务码,就可登录各大运营商的系统爬取通话记录的数据,形成“个人用户报告”,包括通话号码、次数、时长等,借款人的通讯信息就会成为借贷机构向借款人及其家人朋友催收的“利器”。这时,这类公司相当于协助了贷款平台的暴力催收。
刘志解释,做风控需要多维度的数据,如果全部通过正规渠道去拿,一方面目前行业内没有太多渠道,另一方面数据成本很高,但通过爬虫去获取,边际成本很低。另外,数据公司通过爬虫拿到的数据颗粒度更细,除了做风控还可以提供给一些公司做营销,获益更大。因此,业内出现一大批违规操作的数据公司。
02 数据从何而来?
多名业内人士介绍,数据公司的数据来源通常分为四大类:企业自身或其相关公司的数据、爬虫技术爬取数据、相关现金贷公司在用户协议上进行二次授权、通过地下交易非法购买相关信息。
金融行业从业者张丰介绍,对于第一种情况,公信宝推出手机挖矿产品,用户免费使用的同时,需要提供大量个人信息,公司即可借此收集数据;考拉征信属于拉卡拉支付参股公司,其数据来源可能包括在拉卡拉上进行信用卡还款、缴费、金融业务的个人用户数据,以及线下商户经营的数据。
另外,一些合规的企业不少也具备“数据基因”,如前海征信是平安集团旗下全资子公司,其官网显示:前海征信植根于平安集团,探索多样化和创新性的数据采集、存储、处理与分析方式,有着自身独有的优势。
第二种情况是数据公司用爬虫技术去公开网站等地方爬取数据,主要分为司法信息、电商信息、银行卡信息、运营商信息、社交信息、开放数据等几大类。
云鼎实验室2018年发布的《互联网恶意爬虫分析》报告显示,排名前三位的流量目标行业来自出行、电商、社交,运营商和公共行政分别占比4.91%,被爬的频率也较为靠前。
其中,公共行政类恶意爬虫主要集中在法院文书、知识产权、企业信息、信用信息等常规商业信息领域,而另一个受爬虫青睐的是挂号类平台。
用户授权也是一种常用的信息获取手段,如一些现金贷公司在隐私条款用户协议里写了允许其对用户信息二次授权,而下载软件的时候可能读取了用户的通讯录、定位、相册等信息。
此前,中国信通院发布的《移动金融应用安全白皮书(2019年)》中,抽样选取了12款下载量过亿的典型金融行业APP,所有APP均存在不同程度的超范围权限采集现象。这些APP共获取了29种高敏感权限、15种中敏感权限、33种低敏感权限。高敏感权限包括读取手机状态和身份、修改或删除存储卡中的内容、读取系统日志等等。
在隐私政策方面,抽样的部分APP也涉嫌违法违规。例如,某款金融行业APP隐私政策中出现要求用户提供指纹、面部识别信息等个人敏感信息,实际上进行登录等操作时并不需要。
来源 / 信通院报告
曾有报道称,摩羯科技的支付宝爬虫产品只需要用支付宝扫描一下登录“二维码”(第三方生成),后台就可爬取用户的真实姓名、手机号、收货地址、近一年的购物信息,甚至详细到每笔交易的金额。而经过授权的微信爬虫则可以获取用户联系人、关注的公众号、自己是群主的群、微信交易记录、绑定的手机号码等信息。
目前,公安机关已经开展APP违法采集个人信息集中整治。就在12月4日,樊登读书、糖豆、更美、房天下、健康天津、考拉海购等在内的100款APP涉嫌违法违规被国家网络安全中心通告下架整改。
此次整治,重点针对无隐私协议、收集使用个人信息范围描述不清、超范围采集个人信息和非必要采集个人信息等情形。
今年以来,公安部门已经查处违规采集个人信息的APP共683款,严厉打击个人信息黑灰产乱像。
另外还存在的是行业内很普遍的数据互通和地下交易。
张丰介绍,一些小公司会把自己的数据上传到一个第三方应用库,和同行一对一互查,但最后很可能数据都留存到了第三方被再次交易。网上还有不少QQ群、暗网上出售数据,有的企业内部员工有数据库权限,私自留存交易用户数据,用违规插件获取数据等,使得这个市场更加混乱。
这些获取数据的方式是否违规?
长期关注金融行业的律师肖飒表示,通过地下交易非法收购相关信息肯定违规,情节严重会有刑事犯罪风险,涉及到刑法规定的侵犯公民个人信息罪。根据规定,违规向他人出售或者提供公民个人信息,情节特别严重的,可处三年以上七年以下有期徒刑,并处罚金。
至于用爬虫抓取信息是否违规,要看具体情形,如果通过爬虫抓取网络公开信息,并不违法,但涉及到公司或个人信息时,关键点在于是否得到个人或公司的授权。缺少授权,就会涉嫌违规,会构成侵犯公民个人信息罪。
03 野蛮生长后的行业深渊
第三方数据产业几乎是伴随着国内网贷行业红利而生的一波企业。
根据亿欧智库发布的《2018中国智能风控研究报告》,截至去年年底,573家金融风控企业共获得投资金额超过1000亿元,其中三成企业获得三次及以上的投资。
这些企业中,69.8%成立于2013年-2017年,2014年增长率达到156%。2015年,新增企业数目达到峰值
- 标签:
- 编辑:夏学礼
- 相关文章