數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的OLAP技術詳述

Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,,*,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,,*,*,,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術,,,數(shù)據(jù)倉庫-,數(shù),數(shù)據(jù)挖掘的,有,有效平臺,數(shù)據(jù)倉庫中,的,的數(shù)據(jù)清理,和,和數(shù)據(jù)集成,,,,是數(shù)據(jù)挖,掘,掘的重要數(shù),據(jù),據(jù)預處理步,驟,驟,數(shù)據(jù)倉庫提,供,供OLAP,工,工具,可用,于,于不同粒度,的,的數(shù)據(jù)分析,很多數(shù)據(jù)挖,掘,掘功能都可,以,以和OLAP操作集成,,,,以提供不,同,同概念層上,的,的知識發(fā)現(xiàn),分類,預測,關聯(lián),聚集,,,什么是數(shù)據(jù),倉,倉庫?,數(shù)據(jù)倉庫的,定,定義很多,,但,但卻很難有,一,一種嚴格的,定,定義,它是一個提,供,供決策支持,功,功能的數(shù)據(jù),庫,庫,它與公,司,司的操作數(shù),據(jù),據(jù)庫分開維,護,護為統(tǒng)一的歷,史,史數(shù)據(jù)分析,提,提供堅實的,平,平臺,對信,息,息處理提供,支,支持,數(shù)據(jù)倉庫區(qū),別,別于其他數(shù),據(jù),據(jù)存儲系統(tǒng),“數(shù)據(jù)倉庫,是,是一個面向,主,主題的、集,成,成的、隨時,間,間而變化的,、,、不容易丟,失,失的數(shù)據(jù)集,合,合,支持管,理,理部門的決,策,策過程.”,—,—W. H. Inmon,,,數(shù)據(jù)倉庫關,鍵,鍵特征一—,—,—面向主題,面向主題,,是,是數(shù)據(jù)倉庫,顯,顯著區(qū)別于,關,關系數(shù)據(jù)庫,系,系統(tǒng)的一個,特,特征,圍繞一些主,題,題,如顧客,、,、供應商、,產(chǎn),產(chǎn)品等,關注決策者,的,的數(shù)據(jù)建模,與,與分析,而,不,不是集中于,組,組織機構的,日,日常操作和,事,事務處理。
排除對于決,策,策無用的數(shù),據(jù),據(jù),提供特,定,定主題的簡,明,明視圖數(shù)據(jù)倉庫關,鍵,鍵特征二—,—,—數(shù)據(jù)集成,一個數(shù)據(jù)倉,庫,庫是通過集,成,成多個異種,數(shù),數(shù)據(jù)源來構,造,造的關系數(shù)據(jù)庫,,,,一般文件,,,,,聯(lián)機事務處,理,理記錄,使用數(shù)據(jù)清,理,理和數(shù)據(jù)集,成,成技術確保命名約,定,定、編碼結,構,構、屬性度,量,量等的一致,性,性當數(shù)據(jù)被移,到,到數(shù)據(jù)倉庫,時,時,它們要,經(jīng),經(jīng)過轉化數(shù)據(jù)倉庫關,鍵,鍵特征三—,—,—隨時間而,變,變化,數(shù)據(jù)倉庫是從,歷,歷史的角度提,供,供信息,數(shù)據(jù)倉庫的時,間,間范圍比操作,數(shù),數(shù)據(jù)庫系統(tǒng)要,長,長的多操作數(shù)據(jù)庫系,統(tǒng),統(tǒng): 主要保,存,存當前數(shù)據(jù)數(shù)據(jù)倉庫:從,歷,歷史的角度提,供,供信息(比如,過,過去 5-10 年),數(shù)據(jù)倉庫中的,每,每一個關鍵結,構,構都隱式或顯,式,式地包含時間,元,元素,而操作,數(shù),數(shù)據(jù)庫中的關,鍵,鍵結構可能就,不,不包括時間元,素,素數(shù)據(jù)倉庫關鍵,特,特征四——數(shù),據(jù),據(jù)不易丟失,盡管數(shù)據(jù)倉庫,中,中的數(shù)據(jù)來自,于,于操作數(shù)據(jù)庫,,,,但他們卻是,在,在物理上分離,保,保存的操作數(shù)據(jù)庫的,更,更新操作不會,出,出現(xiàn)在數(shù)據(jù)倉,庫,庫環(huán)境下。
不需要事務處,理,理,恢復,和,并,并發(fā)控制等機,制,制,只需要兩種數(shù),據(jù),據(jù)訪問:,數(shù)據(jù)的初始轉,載,載和數(shù)據(jù)訪問,(,(讀操作),,,,數(shù)據(jù)倉庫的構,建,建與使用,數(shù)據(jù)倉庫的構,建,建包括一系列,的,的數(shù)據(jù)預處理,過,過程,數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)倉庫的使,用,用熱點是商業(yè),決,決策行為,例,如,如:,增加客戶聚焦,產(chǎn)品重定位,尋找獲利點,客戶關系管理,,,數(shù)據(jù)倉庫與異,種,種數(shù)據(jù)庫集成,異種數(shù)據(jù)庫的,集,集成方法,傳統(tǒng)的異種數(shù),據(jù),據(jù)庫集成:(,查詢驅動,),在多個異種數(shù),據(jù),據(jù)庫上建立包,裝,裝程序(wrappers,),)和中介程序,(,(mediators ),查詢驅動方法,—,——當從客戶,端,端傳過來一個,查,查詢時,首先,使,使用元數(shù)據(jù)字,典,典將查詢轉換,成,成相應異種數(shù),據(jù),據(jù)庫上的查詢,;,;然后,將這,些,些查詢映射和,發(fā),發(fā)送到局部查,詢,詢處理器,數(shù)據(jù)倉庫:,(,(,更新驅動,),將來自多個異,種,種源的信息預,先,先集成,并存,儲,儲在數(shù)據(jù)倉庫,中,中,供直接查,詢,詢和分析,,,查詢驅動方法,和,和更新驅動方,法,法的比較,查詢驅動的方,法,法,需要負責的信,息,息過濾和集成,處,處理,與局部數(shù)據(jù)源,上,上的處理競爭,資,資源,對于頻繁的查,詢,詢,尤其是涉,及,及聚集(匯總,),)操作的查詢,,,,開銷很大(,決,決策支持中常,見,見的查詢形式,),),更新驅動的方,法,法(帶來高性,能,能),數(shù)據(jù)經(jīng)預處理,后,后單獨存儲,,對,對聚集操作提,供,供良好支持,不影響局部數(shù),據(jù),據(jù)源上的處理,集成歷史信息,,,,支持負責的,多,多維查詢,,,數(shù)據(jù)倉庫與操,作,作數(shù)據(jù)庫系統(tǒng),操作數(shù)據(jù)庫系,統(tǒng),統(tǒng)的主要任務,是,是聯(lián)機事務處,理,理OLTP,日常操作:,購,購買,庫存,,銀,銀行,制造,,工,工資,注冊,,記,記帳等,數(shù)據(jù)倉庫的主,要,要任務是聯(lián)機,分,分析處理OLAP,數(shù)據(jù)分析和決,策,策支持,支持,以,以不同的形式,顯,顯示數(shù)據(jù)以滿,足,足不同的用戶,需,需要,,,OLAP VS. OLTP (1),用戶和系統(tǒng)的,面,面向性,面向顧客(事,務,務) VS.,面,面向市場(,分,分析),數(shù)據(jù)內(nèi)容,當前的、詳細,的,的數(shù)據(jù) VS. 歷史的、,匯,匯總的數(shù)據(jù),數(shù)據(jù)庫設計,實體-聯(lián)系模,型,型(ER)和,面,面向應用的數(shù),據(jù),據(jù)庫設計 VS. 星型/,雪,雪花模型和面,向,向主題的數(shù)據(jù),庫,庫設計,,,OLAP VS. OLTP (2),數(shù)據(jù)視圖,當前的、企業(yè),內(nèi),內(nèi)部的數(shù)據(jù)VS. 經(jīng)過,演,演化的、集成,的,的數(shù)據(jù),訪問模式,事務操作 VS. 只讀查,詢,詢(但很多是,復,復雜的查詢),任務單位,簡短的事務VS. 復雜,的,的查詢,訪問數(shù)據(jù)量,數(shù)十個 VS. 數(shù)百萬個,,,OLAP VS. OLTP (3),用戶數(shù),數(shù)千個 VS. 數(shù)百個,數(shù)據(jù)庫規(guī)模,100M-數(shù)GB VS.100GB-數(shù)TB,設計優(yōu)先性,高性能、高可,用,用性 VS.,高,高靈活性、,端,端點用戶自治,度量,事務吞吐量VS. 查詢,吞,吞吐量、響應,時,時間,更多的區(qū)別見,教,教科書P28,,,,表2-1,,,為什么需要一,個,個分離的數(shù)據(jù),倉,倉庫?,提高兩個系統(tǒng),的,的性能,DBMS是,為,為OLTP,而,而設計的:,存,存儲方式,,索,索引, 并,發(fā),發(fā)控制,,恢,恢復,數(shù)據(jù)倉庫是,為,為OLAP,而,而設計:復,雜,雜的 OLAP查詢,,多,多維視圖,,,,匯總,不同的功能,和,和不同的數(shù),據(jù),據(jù):,歷史數(shù)據(jù):,決,決策支持,需,需要歷史數(shù),據(jù),據(jù),而這些,數(shù),數(shù)據(jù)在操作,數(shù),數(shù)據(jù)庫中一,般,般不會去維,護,護,數(shù)據(jù)匯總:,決,決策支持需,要,要將來自異,種,種源的數(shù)據(jù),統(tǒng),統(tǒng)一(如聚,集,集和匯總),數(shù)據(jù)質量:,不,不同的源,使,使用不一致,的,的數(shù)據(jù)表示,、,、編碼和格,式,式,對這些,數(shù),數(shù)據(jù)進行有,效,效的分析需,要,要將他們轉,化,化后進行集,成,成,,,多維數(shù)據(jù)模,型,型 (1),數(shù)據(jù)倉庫和OLAP工,具,具基于多維,數(shù),數(shù)據(jù)模型,在多維數(shù)據(jù),模,模型中,數(shù),據(jù),據(jù)以數(shù)據(jù)立,方,方體(data cube)的形,式,式存在,數(shù)據(jù)立方體,允許以多維,數(shù),數(shù)據(jù)建模和,觀,觀察。
它由,維,和,事實,定義,維,是關于一個,組,組織想要記,錄,錄的視角或,觀,觀點每個,維,維都有一個,表,表與之相關,聯(lián),聯(lián),稱為,維表,多維數(shù)據(jù)模,型,型圍繞中心,主,主題組織,,該,該主題用,事實表,表示,事實表,包括事實的,名,名稱或度量,以,以及每個相,關,關維表的關,鍵,鍵字,事實,指的是一些,數(shù),數(shù)字度量,,,多維數(shù)據(jù)模,型,型 (2),—,——示例,,,time_key,day,day_of_the_week,month,quarter,year,time,維,維表,location_key,street,city,state_or_province,country,location 事,實,實表,Sales,事,事實表,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,,avg_sales,度量,item_key,item_name,brand,type,supplier_type,item,維,維表,branch_key,branch_name,branch_type,branch 維表,,,多維數(shù)據(jù)模,型,型 (3),在數(shù)據(jù)倉庫,中,中,數(shù)據(jù)立,方,方體是n-D的(n維,),),(關系表和,電,電子表格是,幾,幾維的?),示例,AllElectronics的,銷,銷售數(shù)據(jù)按,維,維time, item的2-D,視,視圖 (P30, 表2-2),AllElectronics的,銷,銷售數(shù)據(jù)按,維,維time, item和location,的,的3-D視,圖,圖 (P30, 表2-3),AllElectronics的,銷,銷售數(shù)據(jù)按,維,維time, item和location,的,的3-D視,圖,圖的3-D,數(shù),數(shù)據(jù)立方體,表,表示 (P31, 圖2-1),銷售數(shù)據(jù)的4-D立方,體,體表示 (P31,,圖,圖2-2),多維數(shù)據(jù)模,型,型為不同角,度,度上的數(shù)據(jù),建,建模和觀察,提,提供了一個,良,良好的基礎,,,多維數(shù)據(jù)模,型,型 (4),在數(shù)據(jù)倉庫,的,的研究文獻,中,中,一個n,維,維的數(shù)據(jù)的,立,立方體叫做,基本方體,。
給定一個,維,維的集合,,我,我們可以構,造,造一個,方體的格,,每個都在,不,不同的匯總,級,級或不同的,數(shù),數(shù)據(jù)子集顯,示,示數(shù)據(jù),方,體,體的格稱為,數(shù)據(jù)立方體,0維方體,存,存放最高層,的,的匯總,稱,作,作,頂點方體,;而存放最,底,底層匯總的,方,方體則稱為,基本方體,數(shù)據(jù)立方體,—,——一個方,體,體的格,all,time,item,location,supplier,time,item,time,location,time,supplier,item,location,item,supplier,location,supplier,time,item,location,time,item,supplier,time,location,supplier,item,location,supplier,time,item, location, supplier,0-D(頂,點,點) 方體,1-D方體,2-D 方,體,體,3-D 方,體,體,4-D(基,本,本) 方體,,,數(shù)據(jù)倉庫的,概,概念模型,最流行的數(shù),據(jù),據(jù)倉庫概念,模,模型是多維,數(shù),數(shù)據(jù)模型這,這種模型可,以,以以星型模,式,式、雪花模,式,式、或事實,星,星座模式的,形,形式存在。
星型模式(Starschema): 事,實,實表在中心,,,,周圍圍繞,地,地連接著維,表,表(每維一,個,個),事實,表,表含有大量,數(shù),數(shù)據(jù),沒有,冗,冗余雪花模式(Snowflakeschema):,是,是星型模式,的,的變種,其,中,中某些維表,是,是規(guī)范化的,,,,因而把數(shù),據(jù),據(jù)進一步分,解,解到附加表,中,中結果,,模,模式圖形成,類,類似于雪花,的,的形狀事實星座(Factconstellations): 多個事,實,實表共享維,表,表, 這種,模,模式可以看,作,作星型模式,集,集,因此稱,為,為星系模式,(,(galaxy schema),,,,或者事實,星,星座(fact constellation),,,星型模式實,例,例,,,time_key,day,day_of_the_week,month,quarter,year,time,location_key,street,city,state_or_province,country,location,SalesFactTable,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,,avg_sales,Measures,item_key,item_name,brand,type,supplier_type,item,branch_key,branch_name,branch_type,branch,,,雪花模式實,例,例,,time_key,day,day_of_the_week,month,quarter,year,time,location_key,street,city_key,location,SalesFactTable,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,,avg_sales,Measures,item_key,item_name,brand,type,supplier_key,item,branch_key,branch_name,branch_type,branch,supplier_key,supplier_type,supplier,city_key,city,state_or_province,country,city,,,事實星座模,式,式實例,,time_key,day,day_of_the_week,month,quarter,year,time,location_key,street,city,province_or_state,country,location,SalesFactTable,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,,avg_sales,Measures,item_key,item_name,brand,type,supplier_type,item,branch_key,branch_name,branch_type,branch,,Shipping FactTable,,time_key,item_key,,shipper_key,,from_location,,to_location,,dollars_cost,,units_shipped,shipper_key,shipper_name,location_key,shipper_type,shipper,,,一種數(shù)據(jù)挖掘查,詢,詢語言: DMQL,DMQL首先包,括,括定義數(shù)據(jù)倉庫,和,和數(shù)據(jù)集市的語,言,言原語,這包括,兩,兩種原語定義:,一,一種是立方體定,義,義,一種是維定,義,義,立方體,定,定義(事實,表,表),definecube[]:,維定義(維,表,表),definedimensionas(),特殊案,例,例 (,共,共享維,表,表的定,義,義),第一次,作,作為維,表,表定義,“,“cubedefinition”,然后:definedimensionasincube,,,實例:,使,使用DMQL,定,定義星,型,型模式,definecubesales_star [time,item,branch, location]:,dollars_sold=sum(sales_in_dollars), avg_sales= avg(sales_in_dollars),units_sold= count(*),definedimensiontimeas(time_key, day,day_of_week, month,quarter,year),definedimensionitemas(item_key, item_name,brand, type, supplier_type),definedimensionbranchas(branch_key,branch_name, branch_type),definedimensionlocationas(location_key,street,city,province_or_state,country),,,實例,:,:使,用,用DMQL定,義,義雪,花,花模,式,式,definecubesales_snowflake[time,item,branch,location]:,dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*),definedimensiontimeas(time_key,day,day_of_week,month,quarter,year),definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type)),definedimensionbranchas(branch_key,branch_name,branch_type),definedimensionlocationas(location_key,street,city(city_key,province_or_state,country)),,,實例,:,:使,用,用DMQL定,義,義事,實,實星,座,座模,式,式,definecubesales[time,item,branch,location]:,dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*),definedimensiontimeas(time_key,day,day_of_week,month,quarter,year),definedimensionitemas(item_key,item_name,brand,type,supplier_type),definedimensionbranchas(branch_key,branch_name,branch_type),definedimensionlocationas(location_key,street,city,province_or_state,country),define cubeshipping [time,item, shipper,from_location,to_location]:,dollar_cost = sum(cost_in_dollars),unit_shipped =count(*),define dimensiontimeastimein cubesales,define dimensionitemasitemin cubesales,define dimensionshipperas(shipper_key, shipper_name, locationaslocationin cubesales, shipper_type),define dimensionfrom_locationaslocationin cubesales,define dimensionto_locationaslocationin cubesales,,,度量的分類,一個數(shù)據(jù)立方體,的,的度量是一個,數(shù)值,函數(shù),該函數(shù)可,以,以對數(shù)據(jù)立方體,的,的每一個點求值,。
剛才的示例中用,的,的是什么函數(shù)?,),度量可以根據(jù)其,所,所用的聚集函數(shù),分,分為三類:,分布的(distributive):將函數(shù),用,用于n個聚集值,得,得到的結果和將,函,函數(shù)用于所有數(shù),據(jù),據(jù)得到的結果一,樣,樣比如:count(),sum(),min(),max(),等,等,代數(shù)的(algebraic),:,:函數(shù)可以由一,個,個帶M個參數(shù)的,代,代數(shù)函數(shù)計算(M為有界整數(shù)),,,,而每個參數(shù)值,都,都可以有一個分,布,布的聚集函數(shù)求,得,得比如:avg(),min_N(),standard_deviation(),整體的(holistic):,描,描述函數(shù)的子聚,集,集所需的存儲沒,有,有一個常數(shù)界比如:median(),mode(),rank(),,,5-6,王 燦,數(shù)據(jù)挖掘,sjwj@,0703004,,,概念分層 (1),一個概念分層,(,(concept hierarchy,),)定義一個映,射,射序列,將低,層,層概念映射到,更,更一般的高層,概,概念,E.g. 表,示,示location的概念,:,:杭州,?浙江?中國,?,?亞洲,概念分層允許,我,我們在各種抽,象,象級審查和處,理,理數(shù)據(jù),概念分層可以,由,由系統(tǒng)用戶、,領,領域專家、知,識,識工程師人工,的,的提供,也可,以,以根據(jù)數(shù)據(jù)分,布,布的統(tǒng)計分析,自,自動的產(chǎn)生,,,概念分層 (2):,location維的一個,概,概念分層,all,Europe,North_America,Mexico,Canada,Spain,Germany,Vancouver,M. Wind,L. Chan,...,...,...,...,...,...,all,region,office,country,Toronto,Frankfurt,city,許多概念分層,的,的定義隱含在,數(shù),數(shù)據(jù)庫的模式,中,中。
比如:location維的定義,office 其,其范圍限于選,定,定的主題,比,如,如一個商場的,數(shù),數(shù)據(jù)集市,獨立的數(shù)據(jù)集,市,市 VS.,非,非獨立的數(shù)據(jù),集,集市(數(shù)據(jù)來,自,自于企業(yè)數(shù)據(jù),倉,倉庫),虛擬倉庫,操作數(shù)據(jù)庫上,的,的一系列視圖,只有一些可能,的,的匯總視圖被,物,物化,,,數(shù)據(jù)倉庫開發(fā),:,:困難與方法,數(shù)據(jù)倉庫開發(fā),上,上的困難,自頂向下的開,發(fā),發(fā)方法從全系,統(tǒng),統(tǒng)的角度提供,解,解決方案,使,得,得(模塊)集,成,成的問題最小,;,;但是該方法,十,十分昂貴,需,要,要對組織進行,長,長期研究和建,模,模分析自底向上方法,提,提供了更多的,開,開發(fā)靈活性,,價,價格便宜;但,往,往往會遇到集,成,成問題(每個,模,模塊單獨運行,都,都沒有問題,,但,但是一集成就,出,出異常),解決方法:,使用遞增性、,演,演化性的開發(fā),方,方法,高層數(shù)據(jù)模型,?,企業(yè)倉庫和數(shù),據(jù),據(jù)集市并行開,發(fā),發(fā),?,通過分布式模,型,型集成各數(shù)據(jù),集,集市,?,多層數(shù)據(jù)倉庫,,,數(shù)據(jù)倉庫開發(fā),—,——一個推薦,的,的方法,,定義,高,高層,數(shù),數(shù)據(jù),模,模型,,數(shù)據(jù),集,集市,,數(shù)據(jù),集,集市,,,,分布,式,式數(shù),據(jù),據(jù)集,市,市,多層,數(shù),數(shù)據(jù),倉,倉庫,企業(yè),數(shù),數(shù)據(jù),倉,倉庫,模型,提,提煉,模型,提,提煉,,,OLAP,服,服務,器,器類,型,型(1),邏輯,上,上,OLAP,服,服務,器,器從,數(shù),數(shù)據(jù),倉,倉庫,或,或數(shù),據(jù),據(jù)集,市,市中,給,給商,業(yè),業(yè)用,戶,戶提,供,供多,維,維數(shù),據(jù),據(jù),物理,上,上,OLAP,的,的底,層,層數(shù),據(jù),據(jù)存,儲,儲實,現(xiàn),現(xiàn)可,以,以有,多,多種,不,不同,的,的方,式,式,關系OLAP,服,服務,器,器(ROLAP),使用,關,關系,數(shù),數(shù)據(jù),庫,庫或,擴,擴展,的,的關,系,系數(shù),據(jù),據(jù)庫,存,存放,并,并管,理,理數(shù),據(jù),據(jù)倉,庫,庫的,數(shù),數(shù)據(jù),,,,而,用,用OLAP中,間,間件,支,支持,其,其余,部,部分,包括每個DBMS后端優(yōu)化,聚,集,集導航邏輯的實,現(xiàn),現(xiàn),附加的工具,和,和服務,較大的可擴展性,,,OLAP服務器,類,類型 (2),多維OLAP服,務,務器(MOLAP),基于數(shù)組的多維,存,存儲引擎(稀疏,矩,矩陣技術),能對預,計,計算的,匯,匯總數(shù),據(jù),據(jù)快速,索,索引,混合OLAP,服,服務器(HOLAP),結合上,述,述兩種,技,技術,,更,更大的,使,使用靈,活,活性,特殊的SQL,服,服務器,在星型,和,和雪花,模,模型上,支,支持SQL查,詢,詢,,,數(shù)據(jù)倉,庫,庫的實,現(xiàn),現(xiàn),—,——數(shù),據(jù),據(jù)立方,體,體的有,效,效計算,數(shù)據(jù)倉,庫,庫中的OLAP查詢,是,是一種,海,海量數(shù),據(jù),據(jù)計算,(,(想,象,象一下,對,對過去10年,各,各地區(qū),的,的軟件,產(chǎn),產(chǎn)品銷,售,售的匯,總,總查詢,),),用戶卻,希,希望這,個,個計算,能,能在數(shù),秒,秒鐘內(nèi),完,完成,解決方,法,法在于,給,給出一,種,種有效,的,的計算,數(shù),數(shù)據(jù)立,方,方體的,方,方法,數(shù)據(jù)立,方,方體可,以,以被看,成,成是一,個,個,方體的,格,格,最底層,的,的方體,是,是基本,方,方體,最頂端,的,的方體,(,(頂點,),)只包,含,含一個,單,單元的,值,值,一個n,維,維的數(shù),據(jù),據(jù)立方,體,體,每,維,維L層,,,,可能,產(chǎn),產(chǎn)生的,方,方體總,數(shù),數(shù)是多,少,少?,,(item),(city),(),(year),(city, item),(city, year),(item, year),(city, item, year),,,方體的,操,操作,DMQL中的,方,方體定,義,義和計,算,算,definecube,sales[item,city,year]:sum(sales_in_dollars),compute cube,sales,上述的computecube,子,子句可以轉,化,化為一個類,似,似于SQL,的,的語句,SELECT item, city, year,SUM (amount),FROMSALES,CUBEBY,item,city, year,這個相當于SQL中以,下,下的group by,子,子句,(item, city, year)–3D,(item, city), (itemyear), (city, year)—2D,(item), (city),(year)—1D,()--0D,,(item),(city),(),(year),(city, item),(city, year),(item, year),(city, item, year),,,數(shù)據(jù)立方體,的,的物化,數(shù)據(jù)立方體,的,的,物化,可以有以下,三,三種選擇:,全物化,預先計算所,有,有方體,不物化,不預先計算,任,任何“非基,本,本”方體,部分物化,有選擇的計,算,算一個所有,方,方體的適當,子,子集,考慮因素,:(1),確定要物化,的,的方體;(2)在查詢,時,時利用物化,的,的方體;(3)在裝載,和,和刷新時,,有,有效的更新,物,物化的方體,確定物化,哪,哪些方體,考慮工作,負,負荷下的,查,查詢、它,們,們的頻率,和,和它們的,開,開銷等等,,,方體計算:ROLAP vs. MOLAP,方體計算的挑,戰(zhàn),戰(zhàn):,海量數(shù)據(jù),有,限,限的內(nèi)存和時,間,間,基于ROLAP的方法(底,層,層使用關系模,型,型存儲數(shù)據(jù)),將排序、散列(hashing)和分組,操,操作應用于維,的,的屬性,以便,對,對相關元組重,新,新排序和聚類,在某些子聚集,上,上分組,作為,“,“部分分組步,驟,驟”。 可以由以前計,算,算的聚集計算,新,新的聚集,而,不,不必有基本事,實,實表計算,基于MOLAP方法(底層,使,使用多維數(shù)組,存,存儲數(shù)據(jù)),多路數(shù)組聚集,的,的計算方法,將數(shù)組切成塊,(,(每個塊都可,以,以整個裝入內(nèi),存,存),通過訪問各個,塊,塊來計算匯總,值,值,,,方體計算的多,路,路數(shù)組聚集方,法,法(1),將數(shù)組分成塊,(,(chunk,一個可以裝,入,入內(nèi)存的小子,方,方),通過訪問立方,體,體單元,計算,聚,聚集可以優(yōu),化,化訪問單元組,的,的次序,使得,每,每個單元被訪,問,問的次數(shù)最小,化,化,從而減少,內(nèi),內(nèi)存訪問和磁,盤,盤I/O的開,銷,銷A(month),40個值,B,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,29,30,31,32,1,2,3,4,5,9,13,14,15,16,64,63,62,61,48,47,46,45,a1,a0,c3,c2,c1,c0,b3,b2,b1,b0,a2,a3,C(item)4000,個,個值,B(city)400個,值,值,44,28,56,40,24,52,36,20,60,哪個,是,是多,路,路數(shù),組,組聚,集,集的,最,最佳,遍,遍歷,次,次序,?,?,,,方體,計,計算,的,的多,路,路數(shù),組,組聚,集,集方,法,法(2),A(month),40,B,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,29,30,31,32,1,2,3,4,5,9,13,14,15,16,64,63,62,61,48,47,46,45,a1,a0,c3,c2,c1,c 0,b3,b2,b1,b0,a2,a3,C(item),4000,44,28,56,40,24,52,36,20,60,,,B(city),400,,,,,,,,,,,,,,,,,方體,計,計算,的,的多,路,路數(shù),組,組聚,集,集方,法,法(3),A,B,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,29,30,31,32,1,2,3,4,5,9,13,14,15,16,64,63,62,61,48,47,46,45,a1,a0,c3,c2,c1,c0,b3,b2,b1,b0,a2,a3,C,44,28,56,40,24,52,36,20,60,,,B,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,方體,計,計算,的,的多,路,路數(shù),組,組聚,集,集方,法,法(4),方法,:,:各,平,平面,要,要按,他,他們,大,大小,的,的升,序,序排,列,列進,行,行排,序,序和,計,計算,詳見,書,書P50,例,例2.12(,P52,圖,圖2-16有,誤,誤,),思想,:,:將,最,最小,的,的平,面,面放,在,在內(nèi),存,存中,,,,對,最,最大,的,的平,面,面每,次,次只,是,是取,并,并計,算,算一,塊,塊,,,方體,計,計算,的,的多,路,路數(shù),組,組聚,集,集方,法,法(5),根據(jù)1到64,的,的掃,描,描次,序,序,,在,在塊,內(nèi),內(nèi)存,中,中保,存,存所,有,有相,關,關的2-D平,面,面所,需,需的,最,最小,存,存儲,為,為:,40,×,×400,(,(用,于,于整,個,個AB平,面,面),+,+40×1000,(,(用,于,于AC平,面,面一,行,行),+,+100,×,×1000(,用,用于BC,平,平面,一,一塊)=156,000,這種,方,方法,的,的限,制,制:,只,只有,在,在維,數(shù),數(shù)比,較,較小,的,的情,況,況下,,,,效,果,果才,比,比較,理,理想(要,計,計算,的,的立,方,方體,隨,隨維,數(shù),數(shù)指,數(shù),數(shù)增,長,長),如果維的,數(shù),數(shù)目比較,多,多,可以,考,考慮使用,“,“自底向,上,上的計算,”,”或者時,“,“冰山方,體,體” 計,算,算,,,OLAP,查,查詢的有,效,效處理,確定哪些,操,操作應當,在,在可利用,的,的方體上,執(zhí),執(zhí)行:,將查詢中,的,的選擇、,投,投影、上,卷,卷和下鉆,等,等操作轉,化,化為對應,的,的SQL,或,或/和OLAP操,作,作,如:dice= selection+ projection,確定相關,操,操作應當,使,使用哪些,物,物化的方,體,體,找尋MOLAP中,可,可以利用,的,的索引結,構,構以及壓,縮,縮的或是,稠,稠密的數(shù),組,組結構,,,有效處理OLAP,查,查詢(示,例,例),立方體的,定,定義為:sales[time,item,location]: sum(sales_in_dollar),time,的,的維層次day 有以下幾,種,種:,數(shù)據(jù)倉庫結構的,描,描述,倉庫模式、視圖,、,、維、層次結構,、,、導出數(shù)據(jù)的定,義,義,以及數(shù)據(jù)集,市,市的位置和內(nèi)容,操作元數(shù)據(jù),包括數(shù)據(jù)血統(tǒng)(data lineage)、,數(shù),數(shù)據(jù)類別(currencyof data),以及監(jiān)視信,息,息,匯總用的算法,由操作環(huán)境到數(shù),據(jù),據(jù)倉庫的映射,關于系統(tǒng)性能的,數(shù),數(shù)據(jù),索引,profiles,數(shù)據(jù),刷,刷新、更新或復,制,制事件的調度和,定,定時,商務元數(shù)據(jù),商務術語和定義,、,、數(shù)據(jù)擁有者信,息,息、收費政策等,,,元數(shù)據(jù)的使用,元數(shù)據(jù)與數(shù)據(jù)一,起,起,構成了數(shù)據(jù),倉,倉庫中的數(shù)據(jù)模,型,型,元數(shù)據(jù)所描,述,述的更多的是這,個,個模型的結構方,面,面的信息在數(shù)據(jù)倉庫中,,元,元數(shù)據(jù)的主要用,途,途包括:,用作目錄,幫助,決,決策支持系統(tǒng)分,析,析者對數(shù)據(jù)倉庫,的,的內(nèi)容定義,作為數(shù)據(jù)倉庫和,操,操作性數(shù)據(jù)庫之,間,間進行數(shù)據(jù)轉換,時,時的映射標準,用于指導當前細,節(jié),節(jié)數(shù)據(jù)和稍加綜,合,合的數(shù)據(jù)之間的,匯,匯總算法,指導,稍,稍加綜合的數(shù)據(jù),和,和高度綜合的數(shù),據(jù),據(jù)之間的匯總算,法,法數(shù)據(jù)倉庫后端工,具,具和程序,數(shù)據(jù)倉庫后端工,具,具主要指的是用,來,來裝入和刷新數(shù),據(jù),據(jù)的工具,包括,:,:,數(shù)據(jù)提?。?從多個外部的異,構,構數(shù)據(jù)源收集數(shù),據(jù),據(jù),數(shù)據(jù)清理,檢測數(shù)據(jù)種的錯,誤,誤并作可能的訂,正,正,數(shù)據(jù)變換,將數(shù)據(jù)由歷史或,主,主機的格式轉化,為,為數(shù)據(jù)倉庫的格,式,式,裝載,排序、匯總、合,并,并、計算視圖,,檢,檢查完整性,并,建,建立索引和分區(qū),刷新,將數(shù)據(jù)源的更新,傳,傳播到數(shù)據(jù)倉庫,中,中,,,數(shù)據(jù)倉庫的應用,數(shù)據(jù)倉庫的三種,應,應用,信息處理,支持查詢和基本,的,的統(tǒng)計分析,并,使,使用交叉表、表,、,、圖標和圖進行,報,報表處理,分析處理,對數(shù)據(jù)倉庫中的,數(shù),數(shù)據(jù)進行多維數(shù),據(jù),據(jù)分析,支持基本的OLAP操作,切塊,、,、切片、上卷、,下,下鉆、轉軸等,數(shù)據(jù)挖掘,從隱藏模式中發(fā),現(xiàn),現(xiàn)知識,支持關聯(lián)分析,,構,構建分析性模型,,,,分類和預測,,并,并用可視化工具,呈,呈現(xiàn)挖掘的結果,三種應用間的差,別,別,,,從聯(lián)機分析處理,到,到聯(lián)機分析挖掘,為什么要聯(lián)機分,析,析挖掘,數(shù)據(jù)倉庫中有高,質,質量的數(shù)據(jù),數(shù)據(jù)倉庫中存放,著,著整合的、一致,的,的、清理過的數(shù),據(jù),據(jù),圍繞數(shù)據(jù)倉庫的,信,信息處理結構,存取、集成、合,并,并多個異種數(shù)據(jù),庫,庫的轉換,ODBC/OLEDB連接,Web,訪,訪問和訪問工具,等,等,基于OLAP的,探,探測式數(shù)據(jù)分析,使用上卷、下鉆,、,、切片、轉軸等,技,技術進行數(shù)據(jù)挖,掘,掘,數(shù)據(jù)挖掘功能的,聯(lián),聯(lián)機選擇,多種數(shù)據(jù)挖掘功,能,能、算法和任務,的,的整合,,,聯(lián)機分析挖掘的,體,體系結構,,,,,,,,,,數(shù)據(jù)倉庫,元數(shù)據(jù),多維數(shù)據(jù)庫,,,OLAM,引擎,OLAP,引擎,用戶圖形界面API,數(shù)據(jù)方體 API,,數(shù)據(jù)庫 API,,數(shù)據(jù)清理,數(shù)據(jù)集成,第三層,OLAP/OLAM,第二層,多維數(shù)據(jù)庫,第一層,數(shù)據(jù)存儲,第四層,用戶界面,數(shù)據(jù)的過濾、集,成,成,過濾,,,,,數(shù)據(jù)庫,基于約束的數(shù)據(jù),挖,挖掘,挖掘結果,,,。