“編程老手,承接項(xiàng)目”“數(shù)據(jù)采集全國城市所有行業(yè)”“任何網(wǎng)站的數(shù)據(jù)都能抓取”……在某些搜索引擎和二手交易平臺上,像這種提供大數(shù)據(jù)抓取服務(wù)的商家有很多。從判決書、論文到外賣、電影、購物信息,從房產(chǎn)、貸款到大學(xué)生個(gè)人信息,這些商家們神通廣大,均稱只要付錢就可以提供抓取服務(wù)。
近日,三秦都市報(bào)記者調(diào)查發(fā)現(xiàn),隨著大數(shù)據(jù)概念的興起,一些非法抓取數(shù)據(jù)的產(chǎn)業(yè)也應(yīng)運(yùn)而生。這些黑色產(chǎn)業(yè)鏈背后是個(gè)人隱私的泄露,這些數(shù)據(jù)被各種販賣后,成為騙子們精準(zhǔn)詐騙的資源。而多個(gè)專門非法抓取數(shù)據(jù)的公司,也被警方進(jìn)行了刑事打擊。
抓取一份簡歷只要兩毛多錢
在某二手交易平臺上,輸入“數(shù)據(jù)采集”“大數(shù)據(jù)采集”進(jìn)行搜索,界面會顯示“沒有搜索到您想要的寶貝——無法搜索XX(平臺名稱)違規(guī)信息,換個(gè)關(guān)鍵詞搜索試試”。而根據(jù)頁面提示稍加調(diào)整關(guān)鍵詞,輸入“大數(shù)據(jù)信息采集”“爬蟲數(shù)據(jù)”“網(wǎng)絡(luò)爬蟲”,就會出現(xiàn)五花八門的搜索結(jié)果——“Python爬蟲定制、數(shù)據(jù)分析”“編程老手,承接項(xiàng)目”“數(shù)據(jù)采集全國城市所有行業(yè)”……
8月15日,記者在該二手交易平臺了解到,“數(shù)據(jù)采集全國城市所有行業(yè)”并非只是一句口號——網(wǎng)絡(luò)爬蟲服務(wù)大有無孔不入之勢:從知網(wǎng)、萬方等知識傳播共享平臺,到貓眼電影、豆瓣等興趣平臺,從滿足人們餐飲需求的美團(tuán)、餓了么,到提供住房服務(wù)的我愛我家、鏈家,從社交廣場微博到國民電商平臺淘寶,甚至百度地圖數(shù)據(jù)、股票數(shù)據(jù)、校園數(shù)據(jù),在該平臺上都能找到蹤跡。無論是何種門類,只要是網(wǎng)站上的公開數(shù)據(jù),賣家們都能根據(jù)買家需求,編寫爬蟲軟件、提供軟件定制服務(wù)。根據(jù)買家不同的需求和需求數(shù)量,賣家會決定最終的成交價(jià)格,導(dǎo)出的數(shù)據(jù)通常以Excel表格形式呈現(xiàn)。
記者隨機(jī)與一位自稱按需定制的賣家進(jìn)行交談,該賣家表示,其所提供的線上服務(wù)覆蓋面甚廣——“精準(zhǔn)獲客,海量客戶資源,一鍵查詢,找老板、找法人、找白領(lǐng)、找業(yè)主;二手房業(yè)主,租房房東,全網(wǎng)實(shí)時(shí)更新真實(shí)個(gè)人房源;精準(zhǔn)定位,指定位置附近高質(zhì)量用戶;企業(yè)信息、供應(yīng)商信息,實(shí)時(shí)更新一鍵采集”。以上服務(wù)通過購買月卡、半年卡或者年卡實(shí)現(xiàn),收費(fèi)標(biāo)準(zhǔn)為50元/月、210元/半年及388元/年,購買服務(wù)卡后,在對應(yīng)期限內(nèi)可以無限次使用數(shù)據(jù)查詢功能。
為了規(guī)避風(fēng)險(xiǎn),有相當(dāng)一部分賣家在其業(yè)務(wù)介紹界面中,反復(fù)強(qiáng)調(diào)信息來源的公開性,“只抓取網(wǎng)站上的公開信息”“不抓取個(gè)人信息,身份證不抓,手機(jī)號不抓”“我們不生產(chǎn)數(shù)據(jù),我們只是數(shù)據(jù)的整理搬運(yùn)工”。
只有當(dāng)你加了賣家私聊時(shí),他們才會顯示自己真正的手段。多名賣家稱,“可以破解加密網(wǎng)站,但是反爬機(jī)制太強(qiáng)的網(wǎng)站不能提供服務(wù)。”記者發(fā)現(xiàn),所有的數(shù)據(jù)都被標(biāo)好了價(jià)格,一份簡歷的收費(fèi)標(biāo)準(zhǔn)0.25元,一份判決書低至1毛錢,一篇論文不到1塊錢。
插上電就可獲取周圍用戶信息
除了線上抓取手機(jī)信息外,該二手交易平臺還有很多賣家提供線下服務(wù),售賣線下設(shè)備。通過這些設(shè)備,只要插上電,就可以輕松獲取周圍一公里內(nèi)的電話號碼。而一臺最高配的設(shè)備,也只需1980元。
一位賣家告訴記者,通過他們的設(shè)備,不僅能獲取電話號碼,還可以根據(jù)電話號碼獲得號碼歸屬人在不同APP上停留的時(shí)間,依此進(jìn)行數(shù)據(jù)分析,進(jìn)而形成個(gè)人畫像。賣家通過微信以錄屏的形式,向記者展示了其所銷售的設(shè)備,并詳細(xì)解釋了該設(shè)備的操作方式,“一部手機(jī)做后臺,一個(gè)設(shè)備去采集,十分精準(zhǔn)。”
隨后,賣家還將名為“聚客寶”的分析平臺界面展示給記者。在該界面中,記者發(fā)現(xiàn),其所提供的人物畫像,包括電話號碼歸屬者的性別、學(xué)歷、收入、子女、車產(chǎn)、特定時(shí)期、常用網(wǎng)絡(luò)、手機(jī)價(jià)位、婚姻、房產(chǎn),甚至連備孕/孕期在該界面上都有所顯示。
賣家還告訴記者,可以根據(jù)以上信息和營銷需求,點(diǎn)對點(diǎn)聯(lián)系客戶,精準(zhǔn)投放。該賣家也提供一款名為“人脈大師”的軟件服務(wù),宣傳視頻上稱該“神器”具有“爆粉功能”:全自動添加附近好友。賣家對記者解釋稱,“使用這一軟件,可主動被動地添加抓取到信息的周圍人為好友。主動是你主動地去加你想加的人,被動是裂變式加好友,服務(wù)費(fèi)是198元/年。”
數(shù)據(jù)多被用來實(shí)施精準(zhǔn)詐騙
看到這里你可能想問,為什么會有人要千方百計(jì)抓取別人的數(shù)據(jù)?花錢拿到這些數(shù)據(jù)能干什么?警方偵破的一系列非法抓取數(shù)據(jù)案,也許能給你答案。
近日,浙江紹興警方就偵破了一起非法抓取數(shù)據(jù)的大案。警方發(fā)布的消息顯示,該團(tuán)伙涉嫌非法竊取用戶個(gè)人信息30億條,涉及百度、騰訊、阿里巴巴、京東等全國96家互聯(lián)網(wǎng)公司產(chǎn)品,被稱為“史上最大規(guī)模”的數(shù)據(jù)竊取案。
今年4月,號稱中國最大的簡歷大數(shù)據(jù)公司“巧達(dá)科技”被北京警方查獲。之前,巧達(dá)科技宣稱,他們擁有簡歷2.2億份以上、通訊錄10億以上、ID組合100億上。通過這些數(shù)據(jù),他們計(jì)算出了8億以上中國人的多種數(shù)據(jù)。
殊不知,這些數(shù)據(jù)都是通過非法手段抓取來的。警方披露的信息顯示,與正規(guī)招聘網(wǎng)站的簡歷由用戶自己上傳不同,巧達(dá)科技的簡歷數(shù)據(jù)庫,全部是通過非法手段抓取而來的。巧達(dá)科技通過技術(shù)手段,繞過招聘網(wǎng)站服務(wù)器防護(hù)策略,竊取存放在服務(wù)器上的用戶數(shù)據(jù),然后將從不同網(wǎng)站竊取來的信息,進(jìn)行重新合并,排列比對,最后形成完整的簡歷和用戶畫像。
去年年底,北京海淀法院還審結(jié)了一起利用“爬蟲”技術(shù)侵入計(jì)算機(jī)信息系統(tǒng)抓取數(shù)據(jù)的刑事案件。法院經(jīng)審理查明,上海某公司的多名被告,于2016年至2017年間采用技術(shù)手段,抓取北京某公司服務(wù)器中存儲的視頻數(shù)據(jù)。該上海公司還破解了北京某公司的防抓取措施進(jìn)行數(shù)據(jù)抓取。最后該上海公司的多名負(fù)責(zé)人均獲刑。
通常,這些數(shù)據(jù)除了被買家買來進(jìn)行用戶精準(zhǔn)營銷,不斷騷擾用戶,更多的則到了騙子手中。最近浙江金華警方就偵破了一起這樣的案件,西安的劉某和深圳的咸某等多人,被當(dāng)?shù)鼐阶カ@。
據(jù)警方調(diào)查,該團(tuán)伙就是通過搭建釣魚類網(wǎng)站收集用戶信息,最后通過網(wǎng)站后臺,導(dǎo)出上述具有貸款意向的客戶精準(zhǔn)信息,販賣給詐騙嫌疑人實(shí)施詐騙。該小作坊式的團(tuán)伙就非法獲取了190多萬條公民信息,受害人涉及全國20多個(gè)省份。
目前尚無專門法律和規(guī)范
非法抓取數(shù)據(jù)曾引發(fā)過各種問題。金杜律師事務(wù)所上海分所合伙人瞿淼,在其公開發(fā)表的文章中談?wù)撨@一問題時(shí)稱,網(wǎng)絡(luò)爬蟲在技術(shù)方面,過于野蠻的爬蟲可能造成網(wǎng)站負(fù)荷過大(尤其多線程爬蟲),從而導(dǎo)致網(wǎng)站癱瘓、不能訪問等。最高人民法院信息中心主任許建峰,今年5月在接受媒體采訪時(shí)也有提及:“中國裁判文書網(wǎng)目前每天的訪問量,可以達(dá)到幾千萬的量級,其中還包括數(shù)據(jù)爬蟲的攻擊,我們的中心服務(wù)器承受著巨大壓力。”
在內(nèi)容方面,網(wǎng)絡(luò)爬蟲可能導(dǎo)致網(wǎng)站所有人喪失對自己網(wǎng)站數(shù)據(jù)的控制權(quán),例如有的數(shù)據(jù)是網(wǎng)站所有人不愿被他人獲取的;或者有的網(wǎng)站為一些數(shù)據(jù)來源付出了較大代價(jià),卻可能因?yàn)榫W(wǎng)絡(luò)爬蟲,輕易大量被他人獲取。此外,在結(jié)果方面,網(wǎng)絡(luò)爬蟲還可能造成他人數(shù)據(jù)被不正當(dāng)?shù)貜?fù)制、使用。網(wǎng)站數(shù)據(jù)如果涉及他人個(gè)人信息,還可能因網(wǎng)絡(luò)爬蟲,導(dǎo)致數(shù)據(jù)大量被他人未經(jīng)數(shù)據(jù)主體同意而獲取,從而傷害其利益。
瞿淼還說,目前我國還沒有專門針對爬蟲技術(shù)的法律或者規(guī)范。一般而言,爬蟲技術(shù)本身并無違法違規(guī)之處。但是,隨著數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,數(shù)據(jù)爬取猶如資源爭奪戰(zhàn)一般越發(fā)激烈白熱。數(shù)據(jù)爬取帶來的各種問題和顧慮日漸增加。而“爬”與“反爬”的技術(shù)對抗,會像軍備競賽一般永無休止,成為所有行業(yè)主體的痛。而爬與反爬之間的對抗賽,還存在無法避免的誤傷率,導(dǎo)致正常用戶的困擾。
就此,陜西萊頓律師事務(wù)所何睿律師表示,2017年6月1日起正式實(shí)施的《中華人民共和國網(wǎng)絡(luò)信息安全法》第二十二條明文規(guī)定,網(wǎng)絡(luò)產(chǎn)品、服務(wù)具有收集用戶信息功能的,其提供者應(yīng)當(dāng)向用戶明示并取得同意。第四十四條規(guī)定,任何個(gè)人和組織不得竊取或者以其他非法方式獲取個(gè)人信息,不得非法出售或者非法向他人提供個(gè)人信息。
他認(rèn)為,網(wǎng)絡(luò)爬蟲存在多種法律風(fēng)險(xiǎn),從一些判例來看,網(wǎng)絡(luò)爬蟲會構(gòu)成不正當(dāng)競爭、構(gòu)成侵犯信息網(wǎng)絡(luò)傳播權(quán),更嚴(yán)重的可能涉及多種刑事罪名。何律師表示,刑法上,網(wǎng)絡(luò)爬蟲則會構(gòu)成侵犯公民個(gè)人信息罪、非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)罪、構(gòu)成非法侵入計(jì)算機(jī)信息系統(tǒng)罪等罪名。記者 張晴悅
編輯: 孫璐瑩
以上文章僅代表作者個(gè)人觀點(diǎn),本網(wǎng)只是轉(zhuǎn)載,如涉及作品內(nèi)容、版權(quán)、稿酬問題,請及時(shí)聯(lián)系我們。電話:029-63903870