人民交通网-嫩草嫩草嫩草影院-人民交通杂志官网

  • 手機站
  • 微信
  • 搜索
    搜新聞
    您的位置:首頁 > 大數(shù)據(jù)

    數(shù)據(jù)挖掘大戰(zhàn) 機器怎么做到“見信如面”

    視覺中國

    大數(shù)據(jù)殺熟?隱私換便捷?一度被熱捧的大數(shù)據(jù)挖掘,近日站在了輿論的風口浪尖:一些商家利用大數(shù)據(jù)挖掘技術(shù)“殺熟”被網(wǎng)友親測證實;百度董事長兼CEO李彥宏一句“中國人對隱私問題沒有那么敏感”,更是讓它的處境雪上加霜。大數(shù)據(jù)挖掘技術(shù)就像一位有了負面新聞的明星,霎時間光彩暗淡,似乎變成了偷人隱私的小賊。

    《大數(shù)據(jù)時代》一書暢銷之后的幾年,大數(shù)據(jù)雖不再那么當紅,但并未隱退,它的持續(xù)發(fā)展已成為人工智能得以實現(xiàn)的基礎(chǔ)之一。

    那么,大數(shù)據(jù)挖掘究竟是怎樣的技術(shù)?從誕生發(fā)展至今,那些埋頭苦干的技術(shù)人員又讓它長了哪些本領(lǐng)?面對大數(shù)據(jù)難以管理的問題,有沒有技術(shù)手段加以控制?

    用戶畫像:機器給人類貼標簽

    “通過打標簽的方式建立用戶畫像,是數(shù)據(jù)挖掘常用的一種技術(shù)。”北京大學計算機科學技術(shù)研究所多媒體信息處理研究室主任彭宇新教授解釋,建立用戶畫像就是利用社交網(wǎng)絡(luò)的信息,根據(jù)用戶社會屬性、生活習慣和消費行為等信息,抽象出一個標簽化的用戶模型,目標是使機器實現(xiàn)類似于人的“見信如面”的能力。社交網(wǎng)絡(luò)數(shù)據(jù)是實現(xiàn)這一目標的基礎(chǔ),機器對人的“初相見”多是源自于對社交網(wǎng)絡(luò)數(shù)據(jù)的挖掘。

    標簽,通常是通過對用戶信息進行分析得到的高度精煉的特征標識,使得機器方便做信息提取、聚合分析等處理。標簽本身無需再做過多文本分析等處理工作,這為利用機器提取標準化信息提供了便利。

    “有了標簽,計算機就能夠自動處理與人相關(guān)的信息,能夠通過算法、模型逐步‘理解’ 人。”彭宇新介紹,多個標簽共同完成畫像,整個過程可分三步走:一是采集數(shù)據(jù),即基于文本的信息抓取,口語稱為“爬數(shù)據(jù)”;二是用戶行為建模,通過機器學習技術(shù),形成算法模型,判斷用戶可能的一些行為;三是可視化展現(xiàn),把機器運算出來的結(jié)果,通過能讓人類理解的方式展現(xiàn)出來。這三步是多輪調(diào)整的,在實際應(yīng)用中,根據(jù)結(jié)果的反饋,以及業(yè)務(wù)需求,可能進行二次建模等調(diào)整。

    整個過程的影響參數(shù)是相對多元的,不同的行為類型,對于標簽信息的權(quán)重影響也不同。以應(yīng)用最廣的商品營銷為例,比如網(wǎng)售紅酒,如果“購買”權(quán)重計為5,僅“瀏覽”計為1,加上瀏覽間隔、駐留時長、生活習慣等,通過復雜的算法最終呈現(xiàn)出一個標簽的權(quán)重,再形成畫像。

    基于用戶畫像技術(shù),大數(shù)據(jù)挖掘進行分類和關(guān)聯(lián)規(guī)則計算等分析:例如喜歡紅酒的用戶有多少,喜歡紅酒的人群中,男、女比例是多少,喜歡紅酒的人通常喜歡什么運動品牌等等。

    跨媒體智能識別:為計算機裝上慧眼

    “以前文本信息占主流,現(xiàn)在圖像、視頻等多媒體數(shù)據(jù)鋪天蓋地而來。”彭宇新說,后者目前占據(jù)大數(shù)據(jù)的80%以上。

    數(shù)據(jù)類型發(fā)生的巨大變化,使得智能識別的任務(wù)更加艱巨。“管不住”和“用不好”的問題日益凸顯。“機器只能讀懂自己的語言。”彭宇新說,人類世界的所有語言都要轉(zhuǎn)化為機器理解的語言才能被識別,以前只處理文本相對簡單,而現(xiàn)在要加上復雜的圖像、視頻等數(shù)據(jù)。

    “例如,世界上有數(shù)千種鳥類,很多種的差異非常細微,即使是有專業(yè)知識的人類也很難準確辨認,計算機自動識別的難度就更大了。”彭宇新說,圖像、視頻內(nèi)容理解的難點在于如何進行語義自動識別,這也是他們團隊多年攻關(guān)的課題之一,為此團隊發(fā)明了基于注意力模型和深度增量學習的識別方法。

    注意力模型,顧名思義是讓計算機自動定位圖像的顯著性區(qū)域,以此提高檢測精度;深度增量學習,是指計算機能夠利用已經(jīng)學到的知識加速對新知識的學習,同時通過動態(tài)擴容以支持新概念的檢測。

    新模型新算法的發(fā)力,幫助機器快速識別圖像、視頻的語義信息。彭宇新團隊近年來六次參加國際權(quán)威評測TRECVID的視頻樣例搜索比賽均獲第一名,并在與卡內(nèi)基梅隆大學、牛津大學、IBM Watson研究中心等參賽隊伍的較量中勝出。其中一個題目就是在464個小時的視頻中快速準確地找出所有的倫敦地鐵標志,彭宇新團隊僅用了不到1秒就成功勝出,獲得第一名。

    單媒體信息的分析與識別之上,如何進一步讓機器像人類一樣能看、能理解呢?

    為達到跨媒體信息融合與一體化分析識別的目的,項目團隊首先把數(shù)據(jù)按照不同媒體類型自動分發(fā)到對應(yīng)的分析與識別模塊。例如,對視頻鏡頭進行分割、對關(guān)鍵幀進行提取,然后分發(fā)到鏡頭檢索、片斷檢索、視頻字幕識別等模塊中,對單媒體分析結(jié)果進行跨媒體語義關(guān)聯(lián)分析,實現(xiàn)跨媒體信息的語義協(xié)同。“一種常用的方法是構(gòu)建第三方空間進行跨媒體關(guān)聯(lián)。”彭宇新說,“計算機根據(jù)我們教它的模型分別為圖像、視頻、文本、音頻抽取表征,再共同投射到一個第三方空間中,這樣不同媒體的信息就可以對話了。”

    技術(shù)的“抽絲剝繭”,讓圖像、視頻中的信息可以如文本一般精確透明。“我們是瞄著應(yīng)用去的,準確率、處理速度都經(jīng)過多年的優(yōu)化,已經(jīng)可以進行實際應(yīng)用了。”彭宇新介紹,這項技術(shù)不僅幫助新聞媒體等行業(yè)進行數(shù)據(jù)管理和檢索,還在助力互聯(lián)網(wǎng)管理部門對大數(shù)據(jù)進行分析與監(jiān)測。

    延伸閱讀

    匿名處理:可預期的隱私保護對策

    打破信息控制權(quán)幾乎不可能,但隱私保護卻有個很便捷的方法。北京郵電大學教授楊義先的《安全簡史》中有個形象的比喻,如果數(shù)據(jù)在網(wǎng)上“裸奔”,為了不被溯源,最便捷的安全手段是“把臉捂住”。這就是所謂的“匿名化處理機制”。

    “用戶隱私保護的相關(guān)規(guī)定要求,數(shù)據(jù)公司在售賣數(shù)據(jù)時,需要對數(shù)據(jù)進行匿名化處理。”北京大學計算機科學技術(shù)研究所研究員趙東巖說。但為了精準定位、推送服務(wù),匿名化處理可能被忽視。“精準意味著目標客戶群的ID指向,而不是向群體發(fā)送,因此,個性化推送和匿名化處理在目前的技術(shù)中是相互沖突的。”

    針對上面的沖突,業(yè)界的先行者提出一種區(qū)塊鏈的解決思路。“我稱它為OF ID。”北京領(lǐng)主科技公司研究人員劉偉泰說,“大數(shù)據(jù)的本質(zhì)是群體研究,但是群體粒度可以細一些,此外,區(qū)塊鏈技術(shù)可以授予用戶授權(quán)的方法。”

    不難想象,隨著新技術(shù)的不斷創(chuàng)新,會有更多用于信息安全的技術(shù)突破,不是一門心思用于大數(shù)據(jù)挖掘,而是也能用于制衡“信息控制權(quán)”。

    (新媒體責編:wb001)

    聲明:

    1、凡本網(wǎng)注明“人民交通雜志”/人民交通網(wǎng),所有自采新聞(含圖片),如需授權(quán)轉(zhuǎn)載應(yīng)在授權(quán)范圍內(nèi)使用,并注明來源。

    2、部分內(nèi)容轉(zhuǎn)自其他媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。

    3、如因作品內(nèi)容、版權(quán)和其他問題需要同本網(wǎng)聯(lián)系的,請在30日內(nèi)進行。電話:010-67683008

    時政 | 交通 | 交警 | 公路 | 鐵路 | 民航 | 物流 | 水運 | 汽車 | 財經(jīng) | 輿情 | 郵局

    人民交通24小時值班手機:17801261553 商務(wù)合作:010-67683008轉(zhuǎn)602

    Copyright 人民交通雜志 All Rights Reserved 版權(quán)所有 復制必究 百度統(tǒng)計 地址:北京市豐臺區(qū)南三環(huán)東路6號A座四層

    增值電信業(yè)務(wù)經(jīng)營許可證號:京B2-20201704 本刊法律顧問:北京京師(蘭州)律師事務(wù)所 李大偉

    京公網(wǎng)安備 11010602130064號 京ICP備18014261號-2  廣播電視節(jié)目制作經(jīng)營許可證:(京)字第16597號

    主站蜘蛛池模板: 随车吊/洒水车/低平板运输车-程力专用汽车股份有限公司 | 山东装卸登车桥_液压装卸升降平台_固定|移动登车桥_山东牛斗重工厂家 | 网络舆情_网络舆情监控系统_舆情监测软件_舆情监控平台-北鲲舆情 | 液压万能试验机-液压式万能试验机-万能试验机厂家-济南鸿君试验机 | 智汇工业-智慧工业、智能制造及工业智能、工业互联门户网站,专业的工业“互联网+”传媒 | 增压泵-离心泵-管道泵-排污泵-上海渤泉泵业制造有限公司 【官方网站】 | 室内儿童乐园定制_淘气堡订做_蹦床公园订制厂家-乐奇多 | 无锡大型数控龙门铣加工中心,精密焊接件制造,机械设备加工-无锡嘉迅机械科技有限公司 | 数控立式车铣复合加工中心_数控立车_卧式加工中心_阀门专机-华电数控 | 郑州建网站,郑州做网站,郑州网站建设,郑州网站制作,郑州高端定制网站,郑州APP开发 | 泰安led显示屏-泰安户外裸眼3D显示屏-扩声系统-舞台灯光机械-电子屏-肥城宁阳新泰东平-泰安市奇美特电子有限公司 | 襄阳燃烧器厂家-低氮燃烧器价格-河北五通道燃烧器就找襄阳市胜合燃力设备有限公司一站式服务 | 液力耦合器,摩擦型液力耦合器生产厂家-河南省华升矿机有限公司 | 耐压测试仪(检测电气设备绝缘性能)百科| 南京叉车|电瓶叉车|电动叉车|电动堆高车|电动搬运车-南京诺嘉机械 | 湖南长沙智能实验室规划设计、整体建设、净化装修、改造施工公司-福临建设 | 硝酸铵钙|山西硝酸钙|硝酸钾|太原硝酸钙镁|硝酸钾钙|亚硝酸钠-山西玉彤化工有限公司 | 南京申信智能科技有限公司| 上海画册设计-上海宣传册设计-产品手册设计-企业画册设计公司 | 湖南众一离心机股份有限公司_活塞推料离心机_沉降离心机_卧式刮刀离心机 | 饲料设备_饲料加工设备_饲料成套加工设备专业提供商-河南杰昌机械设备有限公司 | 青岛网站建设_网站制作_品牌设计_网站设计_圭谷设计 | 惠声电子、广州市惠声电子科技有限公司、VBS、VBS惠声电子、VBS公共广播生产厂家、VBS广播功放生产厂家、VBS会议系统设备批发、VBSIP网络对讲系统厂家、VBS会议系统厂家、VBS智能中控厂家、VBS专业扩声厂家 | 山东恒泰矿业设备有限公司_跑车防护装置,矿用电机车,防爆无轨胶轮车,耙斗装岩机 | 中国家居资讯网-家居建材-知名十大品牌-著名品牌资讯网 | 汽车配件加工生产模具-手板样品模型厂家-拓维模型 | 木屑烘干机|酒糟烘干机|果渣烘干机_郑州东鼎机械 | 家用油烟净化机_商用餐饮油烟净化器_工业油雾废气处理设备_深圳市宝篮环保 | 无锡市恒威工业气体有限公司-工业高纯气体_高纯度特种气体 | 泰安华特玻璃钢有限公司|泰安玻璃钢|泰安华特玻璃钢 | 疲劳试验机|电子万能试验机|摩擦磨损试验机|冲击试验机|济南全力测试技术有限公司 | 夏令营报名中心-军事夏令营哪家好-青少年夏令营推荐-中小学夏令营活动-夏令营报名中心 | 七台河市供排水有限责任公司| 首页 - 宣城市城市建设集团有限公司 | 景德镇晶达新材料有限公司| 山东万通液压股份有限公司-自卸车专用油缸,能源采掘设备油缸,机械装备用油缸,油气弹簧,工程机械油缸,液压元件 | 龙淼环保-旋流-喷淋塔,高温布袋,脉冲布袋-单机-滤筒除尘器,活性炭吸附箱,催化燃烧设备,除尘器配件-沧州龙淼环保设备制造有限公司 | 曙海培训-ZEMAX培训射频培训无线电培训GMS培训EMC培训电磁兼容性培训Maxwell培训欧姆龙培训procast培训可靠性培训光学培训工业机器人培训NI培训Linux培训5G培训Hadoop培训CFD培训 | 邮政纸箱_淘宝纸箱_抗压纸箱,盐城纸箱,盐城纸箱厂家,盐城承重纸箱-盐城君雅纸箱 | 粮食加工设备_玉米_大米_面粉_燕麦_豆类杂粮加工设备-华豫万通 | 液体粉末包装机_颗粒粉剂自动包装机-上海巧慈自动化设备有限公司 |