欧美日本一道本在线视频,日韩福利视频网,www青青草原,欧美日韩在线视频观看,a级午夜精华,久久久亚洲欧洲日产国码aⅴ ,九九视频国产

浩瀚深度劉彤解讀大數(shù)據(jù)分析之道

2014-08-28 22:16:45 中國(guó)信息產(chǎn)業(yè)網(wǎng)  點(diǎn)擊量: 評(píng)論 (0)
主持人:彭超 中國(guó)信息產(chǎn)業(yè)網(wǎng)常務(wù)副總裁訪談嘉賓:劉彤 北京浩瀚深度信息技術(shù)股份有限公司副總裁北京浩瀚深度信息技術(shù)股份有限公司副總裁劉彤做客中國(guó)信息產(chǎn)業(yè)網(wǎng)(點(diǎn)擊播放)精彩觀點(diǎn)·大數(shù)據(jù)本身雖然叫大數(shù)據(jù),

 

主持人:剛剛說(shuō)到,在大數(shù)據(jù)采集方面技術(shù)已經(jīng)不是大問(wèn)題,但是在對(duì)數(shù)據(jù)進(jìn)行多維度疊加分析時(shí),每疊加一個(gè)維度所帶來(lái)的計(jì)算量的差別,是什么樣的一個(gè)關(guān)系?數(shù)據(jù)的處理能力又會(huì)有哪些區(qū)別?
劉彤:每做一個(gè)維度的疊加必然會(huì)帶來(lái)數(shù)據(jù)量的增長(zhǎng),這是一個(gè)很簡(jiǎn)單的邏輯問(wèn)題。作為運(yùn)算來(lái)說(shuō),維度的疊加會(huì)帶來(lái)數(shù)據(jù)量的級(jí)數(shù)增長(zhǎng),但是在應(yīng)用場(chǎng)景確定的情況下,數(shù)據(jù)又是在做收斂的,是在做層層的過(guò)濾,而不是層層的疊加,數(shù)據(jù)是在過(guò)濾的過(guò)程中做高密度疊加的。在這種情況下,并沒(méi)有帶來(lái)想象中的數(shù)據(jù)膨脹,這是大數(shù)據(jù)和傳統(tǒng)應(yīng)用系統(tǒng)的一個(gè)很大的區(qū)別。
以前的關(guān)系型數(shù)據(jù)庫(kù)在進(jìn)行分析時(shí)如果疊加維度,疊加到三個(gè)以上,處理能力就非常非常慢了,因?yàn)樵谶M(jìn)行數(shù)據(jù)處理的過(guò)程中,需要把每個(gè)維度同每一個(gè)數(shù)據(jù)進(jìn)行關(guān)聯(lián),建立關(guān)系,這種方法是把全網(wǎng)的數(shù)據(jù)都進(jìn)行組合、關(guān)聯(lián)、疊加,數(shù)據(jù)處理的效率就會(huì)直線下降。
大數(shù)據(jù)分析的特點(diǎn)是,不是把全部數(shù)據(jù)都同時(shí)疊加,而是在每一個(gè)維度都展開(kāi)分析,在分析的過(guò)程中進(jìn)行過(guò)濾篩選。舉個(gè)簡(jiǎn)單的例子,比如會(huì)場(chǎng)里有很多人,這么多人里按男女分類,先把男士挑出來(lái),然后對(duì)男士的年齡段進(jìn)行篩選,先把年齡段在20-40歲的選出來(lái),再?gòu)闹羞x出戴眼鏡的,會(huì)發(fā)現(xiàn)選出的人越來(lái)越少,要分析的對(duì)象越來(lái)越精確,數(shù)據(jù)量變大了嗎?其實(shí)沒(méi)有。但是如果同時(shí)要得到這些維度在每一個(gè)可能分析方向的結(jié)果,就等于把所有運(yùn)算做了一遍。這就帶出了在大數(shù)據(jù)分析里一個(gè)非常核心的要素:選定目標(biāo)。必須要有一個(gè)清晰的工作目標(biāo),先有目標(biāo),然后進(jìn)行大數(shù)據(jù)篩選,而不是對(duì)數(shù)據(jù)進(jìn)行全面的分析、全量的分析,得出所有的結(jié)論,再在結(jié)論里去找所需要的東西。
主持人:在對(duì)大數(shù)據(jù)進(jìn)行分析的過(guò)程中,分析方法的差別可能會(huì)導(dǎo)致不同的結(jié)論,而這些結(jié)論也都是基于大數(shù)據(jù)分析的,如何才能確保制定了目標(biāo)之后,得到正確的結(jié)論?
劉彤:這個(gè)問(wèn)題從分析的角度來(lái)說(shuō),很難進(jìn)行解答,因?yàn)樽龃髷?shù)據(jù)的目標(biāo)選擇,包括分析方法的確定、分析的流程步驟制定,輸出結(jié)果,怎么樣去正確的解讀數(shù)據(jù)結(jié)果,是需要經(jīng)驗(yàn)的積累的。
大數(shù)據(jù)分析實(shí)際上是數(shù)學(xué)建模的過(guò)程,通過(guò)海量數(shù)據(jù)分析的過(guò)程,找到一些模型的規(guī)律,根據(jù)這些規(guī)律總結(jié)出相關(guān)的結(jié)論,而這些規(guī)律的搜集和積累過(guò)程是必須的,不能憑空拿出一些數(shù)據(jù)去做分析,馬上得出目標(biāo)性的結(jié)論。
在第一次進(jìn)行數(shù)據(jù)分析的時(shí)候,實(shí)際上是沒(méi)有任何參照的,在不知道行業(yè)運(yùn)行方式、數(shù)據(jù)來(lái)源、數(shù)據(jù)使用方式的情況下去做數(shù)據(jù)分析是不科學(xué)的。數(shù)據(jù)分析,需要不斷累積經(jīng)驗(yàn),基于數(shù)據(jù)所包含的信息量確定目標(biāo),再通過(guò)正確的分析方式,得到正確的結(jié)論。
確定目標(biāo)的過(guò)程,是基于對(duì)數(shù)據(jù)的基礎(chǔ)分析判斷,其實(shí)在選定目標(biāo)的時(shí)候,目標(biāo)的制定者已經(jīng)有了大致的分析計(jì)劃表,他知道要進(jìn)行幾個(gè)維度的篩選疊加后能夠逼近分析結(jié)論。數(shù)據(jù)分析工程師在進(jìn)行數(shù)據(jù)處理的時(shí)候,是依據(jù)目標(biāo)制定者的思路來(lái)進(jìn)行數(shù)據(jù)的逼近,逼近過(guò)程中,核心的保障不在于分析方法,因?yàn)榉治龇椒ㄒ呀?jīng)確定了,而是在于數(shù)據(jù)分析的質(zhì)量:數(shù)據(jù)是不是準(zhǔn)確,是不是全面,是不是可靠,這些數(shù)據(jù)的有效性、延續(xù)性,是不是足夠滿足你的分析。這個(gè)過(guò)程是慢慢擴(kuò)大對(duì)數(shù)據(jù)認(rèn)知的過(guò)程,認(rèn)知程度越深,驗(yàn)證數(shù)據(jù)是不是有效可靠的過(guò)程就越順利,逼近結(jié)果的過(guò)程也就越順利,就會(huì)變成一個(gè)高效率的工作,并且會(huì)得出正確的結(jié)論。
大數(shù)據(jù)有一個(gè)好處是,在大數(shù)據(jù)應(yīng)用的時(shí)候并不像傳統(tǒng)數(shù)據(jù),展現(xiàn)的時(shí)候必須馬上給出結(jié)果,大數(shù)據(jù)的析結(jié)果是可以進(jìn)行調(diào)整和修正的,會(huì)隨著結(jié)果與真實(shí)情況的驗(yàn)證、對(duì)比來(lái)修正分析方法和模型,以便選擇更有效、更可靠的模型去逼近正確的結(jié)論。

大云網(wǎng)官方微信售電那點(diǎn)事兒

責(zé)任編輯:葉雨田

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
?