數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘

單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二層,第三層,第四層,第五層,*,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘,1,第六章 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘,第一節(jié) 數(shù)據(jù)倉(cāng)庫(kù)的原理,第二節(jié) 數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu),第三節(jié) 數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā),第四節(jié) 聯(lián)機(jī)分析處理,OLAP,第五節(jié) 數(shù)據(jù)挖掘技術(shù),第六節(jié) 數(shù)據(jù)挖掘的方法和工具,2,第一節(jié)數(shù)據(jù)倉(cāng)庫(kù)的原理,一、數(shù)據(jù)倉(cāng)庫(kù)的基本定義,1.基本定義,數(shù)據(jù)倉(cāng)庫(kù)專(zhuān)家的描述:,數(shù)據(jù)倉(cāng)庫(kù)是一個(gè),面向主題的,(,Subject Oriented)、,集成的,(,Integrate)、,相對(duì)穩(wěn)定的,(,Non-Volatile)、,隨時(shí)間,不斷變化,(,Time Variant),的,數(shù)據(jù)集合,,用于支持管理決策3,第一節(jié)數(shù)據(jù)倉(cāng)庫(kù)的原理,一、數(shù)據(jù)倉(cāng)庫(kù)的基本定義,Informix,公司的負(fù)責(zé)人定義數(shù)據(jù)倉(cāng)庫(kù)為:,數(shù)據(jù)倉(cāng)庫(kù)將分布在企業(yè)網(wǎng)絡(luò)中不同職能部門(mén)的,業(yè)務(wù)數(shù)據(jù)集成,,并存儲(chǔ)在一個(gè)單一的,集成關(guān)系型數(shù)據(jù)庫(kù),中利用這種集成信息,可方便用戶(hù)對(duì)信息的訪問(wèn),更可使決策人員對(duì)一段時(shí)間的歷史數(shù)據(jù)進(jìn)行分析,研究事物發(fā)展走勢(shì)4,第一節(jié)數(shù)據(jù)倉(cāng)庫(kù)的原理,2.數(shù)據(jù)倉(cāng)庫(kù)中的一些基本概念,粒度,粒度是數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別;,分割,就是將數(shù)據(jù)分散到各自的物理單元中去,使它們能被獨(dú)立地處理;,維,是人們觀察數(shù)據(jù)的特定角度,是數(shù)據(jù)的視圖,。
5,第一節(jié)數(shù)據(jù)倉(cāng)庫(kù)的原理,二、數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn),面向主題的,集成的,相對(duì)穩(wěn)定的,隨時(shí)間變化的,6,第一節(jié)數(shù)據(jù)倉(cāng)庫(kù)的原理,面向主題的,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按一定的主題進(jìn)行組織的,為按主題進(jìn)行決策的過(guò)程提供信息集成的,數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)是來(lái)源于分散的數(shù)據(jù)庫(kù)數(shù)據(jù),它們進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)中時(shí)必須通過(guò)一定的方法來(lái)使之在數(shù)據(jù)倉(cāng)庫(kù)中有統(tǒng)一的形式和含義T,或,F,轉(zhuǎn) 換,T、F,是、否,0、1,(,a),集成,7,第一節(jié)數(shù)據(jù)倉(cāng)庫(kù)的原理,相對(duì)穩(wěn)定的,也稱(chēng)為非易失性數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析之用,某個(gè)數(shù)據(jù)一旦進(jìn)入數(shù)據(jù)倉(cāng)庫(kù),只要它沒(méi)有數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)期限,一般就不會(huì)被更新插入,刪除,訪問(wèn),修改,數(shù)據(jù)庫(kù),抽取、載入,時(shí)間維,數(shù)據(jù)倉(cāng)庫(kù),(,b),非易失性,8,第一節(jié)數(shù)據(jù)倉(cāng)庫(kù)的原理,隨時(shí)間變化的,數(shù)據(jù)倉(cāng)庫(kù)隨著時(shí)間的變化,不斷增加新的數(shù)據(jù)支持決策系統(tǒng),數(shù)據(jù)倉(cāng)庫(kù)組織的根本目的在于對(duì)決策的支持9,第一節(jié)數(shù)據(jù)倉(cāng)庫(kù)的原理,三、數(shù)據(jù)倉(cāng)庫(kù)中的層次結(jié)構(gòu),一個(gè)典型的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)3層結(jié)構(gòu):,數(shù)據(jù)獲取層、,數(shù)據(jù)存儲(chǔ)與管理層,、,數(shù)據(jù)訪問(wèn)層,10,第一節(jié)數(shù)據(jù)倉(cāng)庫(kù)的原理,數(shù)據(jù)獲取層,對(duì),MIS、,網(wǎng)管和其他外部數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行抽取、清洗、轉(zhuǎn)換,并加載到數(shù)據(jù)倉(cāng)庫(kù)。
數(shù)據(jù)存儲(chǔ)與管理層,實(shí)現(xiàn)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)和源數(shù)據(jù)的集中存儲(chǔ)與管理,進(jìn)行抽取、清理和有效集成,按照主題進(jìn)行組織,并可根據(jù)需求建立面向部門(mén)和主題的部門(mén)級(jí)數(shù)據(jù)倉(cāng)庫(kù),或稱(chēng)為數(shù)據(jù)集市采用在線分析處理(,OnLine Analysis Processing,OLAP),服務(wù)器技術(shù)對(duì)數(shù)據(jù)進(jìn)行有效集成和組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢(shì)11,第一節(jié)數(shù)據(jù)倉(cāng)庫(kù)的原理,數(shù)據(jù)訪問(wèn)層,通過(guò)多樣化的前端分析展示工具(主要包括各種報(bào)表工具、查詢(xún)工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的應(yīng)用開(kāi)發(fā)工具),實(shí)現(xiàn)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的分析和處理,形成市場(chǎng)經(jīng)營(yíng)和決策工作所需要的科學(xué)、準(zhǔn)確、及時(shí)的業(yè)務(wù)信息和知識(shí)12,第一節(jié)數(shù)據(jù)倉(cāng)庫(kù)的原理,四、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的區(qū)別,13,第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu),一、數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu),通常包括4個(gè)部分:,源數(shù)據(jù)、管理部分、數(shù)據(jù)倉(cāng)庫(kù)和應(yīng)用部分,14,第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu),二、數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)中的重要組件,1.數(shù)據(jù)抽取、轉(zhuǎn)換、裝載工具,ETL(Extract/Transformation/Load),它是把數(shù)據(jù)從不同的操作型數(shù)據(jù)庫(kù)中拿出來(lái),進(jìn)行必要的轉(zhuǎn)化、整理,再存放到數(shù)據(jù)倉(cāng)庫(kù)內(nèi)。
15,第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu),2.元數(shù)據(jù),元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中的,用途,有:,起到輔助決策分析過(guò)程中,定位,數(shù)據(jù)倉(cāng)庫(kù)的,目錄,作用,數(shù)據(jù)從業(yè)務(wù)環(huán)境向數(shù)據(jù)倉(cāng)庫(kù)環(huán)境傳送時(shí)數(shù)據(jù)倉(cāng)庫(kù)的,目錄內(nèi)容,指導(dǎo)從近期基本數(shù)據(jù)到輕度綜合數(shù)據(jù)和到高度綜合數(shù)據(jù)的,綜合算法選擇,16,第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu),3.數(shù)據(jù)集市(,Data Marts),為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉(cāng)庫(kù)中獨(dú)立出來(lái)的一部分?jǐn)?shù)據(jù),也可稱(chēng)為部門(mén)數(shù)據(jù)或主題數(shù)據(jù)(,Subject data),4.數(shù)據(jù)倉(cāng)庫(kù)管理工具,數(shù)據(jù)倉(cāng)庫(kù)管理工具的主要內(nèi)容有:安全和特權(quán)管理;跟蹤數(shù)據(jù)的更新;數(shù)據(jù)質(zhì)量檢查;管理和更新元數(shù)據(jù);審計(jì)和報(bào)告數(shù)據(jù)倉(cāng)庫(kù)的使用和狀態(tài);刪除數(shù)據(jù);復(fù)制、分割和分發(fā)數(shù)據(jù);備份和恢復(fù);存儲(chǔ)管理,17,第三節(jié)數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā),一、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模式,1.,星式模式,一個(gè)簡(jiǎn)單的星式模式(,Star Schema),是由一個(gè)事實(shí)表和多個(gè)維表組成復(fù)雜的星式模式包含若干個(gè)事實(shí)表和維表18,第三節(jié)數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā),2.雪花模式,雪花模式(,Snow Flake Schema),是對(duì)星式模式的擴(kuò)展,它的每個(gè)維表都可以向外面連接多個(gè)維19,第三節(jié)數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā),二、數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)方法,在設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)時(shí)一般采用的方法有自頂向下方法、自底向上方法、自頂向下和自底向上綜合的方法。
1.,自頂向下方法,自頂向下方法是從商業(yè)需求出發(fā)直接構(gòu)建全局?jǐn)?shù)據(jù)倉(cāng)庫(kù),即從原來(lái)分散存儲(chǔ)的已有的企業(yè),OLTP,數(shù)據(jù)庫(kù)中通過(guò)數(shù)據(jù)提取、凈化、轉(zhuǎn)換和聚集等處理建立全局?jǐn)?shù)據(jù)倉(cāng)庫(kù)20,第三節(jié)數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā),2.自底向上方法,自底向上方法是從實(shí)驗(yàn)和基于技術(shù)的原型入手,選擇一個(gè)部門(mén)或特定商業(yè)問(wèn)題的數(shù)據(jù)集市開(kāi)始,全局?jǐn)?shù)據(jù)倉(cāng)庫(kù)則建立在數(shù)據(jù)集市的基礎(chǔ)上21,第三節(jié)數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā),三、數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)過(guò)程,1.需求分析,了解用戶(hù)建立數(shù)據(jù)倉(cāng)庫(kù)的商業(yè)目標(biāo)、使用數(shù)據(jù)倉(cāng)庫(kù)的操作環(huán)境、數(shù)據(jù)倉(cāng)庫(kù)應(yīng)具有的功能、特征和開(kāi)發(fā)投資;,2.概念模型設(shè)計(jì),確定各個(gè)主題域的內(nèi)容以及它們之間的關(guān)系,建立,E-R,圖;,3.邏輯模型設(shè)計(jì),將概念模型轉(zhuǎn)換為邏輯模型,主要工作有分析主題域、確定粒度劃分層次、確定數(shù)據(jù)分割策略、確定關(guān)系模式、定義記錄系統(tǒng);,4.物理模型的設(shè)計(jì),確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)、索引策略、數(shù)據(jù)的存儲(chǔ)位置和存儲(chǔ)分配;,22,第三節(jié)數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā),四、數(shù)據(jù)倉(cāng)庫(kù)生命周期,數(shù)據(jù)倉(cāng)庫(kù)的整個(gè)生命周期:,調(diào)查需求,,分析環(huán)境,,確定體系結(jié)構(gòu),,數(shù)據(jù)倉(cāng)庫(kù)具體設(shè)計(jì),,數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行和數(shù)據(jù)管理,23,第三節(jié)數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā),5個(gè)過(guò)程可分為兩大階段:,數(shù)據(jù)倉(cāng)庫(kù)生成階段,這一階段的工作主要是將數(shù)據(jù)從操作型的數(shù)據(jù)庫(kù)系統(tǒng)裝載到數(shù)據(jù)倉(cāng)庫(kù)中來(lái),如何正確抽取、綜合、轉(zhuǎn)換數(shù)據(jù)是要考慮的主要問(wèn)題。
數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行和維護(hù)階段,24,第四節(jié)聯(lián)機(jī)分析處理,OLAP,一、,OLAP,的基本概念,聯(lián)機(jī)分析處理:,是一種使分析人員能迅速、一致、交互地從各個(gè)方面觀察信息,以達(dá)到深入理解數(shù)據(jù)的目的的軟件技術(shù)是一種基于關(guān)系數(shù)據(jù)庫(kù)并對(duì)數(shù)據(jù)進(jìn)行分析的交互式?jīng)Q策方法25,第四節(jié)聯(lián)機(jī)分析處理,OLAP,OLAP,的,功能特征,:,具有多維數(shù)據(jù)庫(kù),OLAP,給出了數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的多維邏輯視圖,這種視圖通過(guò)一種更為直觀的分析模型,使得模型設(shè)計(jì)和分析就像是在層次之間與層次內(nèi)部的計(jì)算一樣便利26,第四節(jié)聯(lián)機(jī)分析處理,OLAP,交互式的快速響應(yīng)查詢(xún),OLAP,采用了細(xì)剖較低層的詳細(xì)數(shù)據(jù)或統(tǒng)攬較高層的概括性和聚集數(shù)據(jù)來(lái)進(jìn)行交互式查詢(xún),同時(shí)為了提高查詢(xún)和響應(yīng)速度,它還采用了數(shù)據(jù)的矩陣存儲(chǔ)技術(shù)和一系列的數(shù)據(jù)壓縮技術(shù)動(dòng)態(tài)數(shù)據(jù)分析,OLAP,則是側(cè)重于動(dòng)態(tài)數(shù)據(jù)的分析,并可以在其內(nèi)部對(duì)數(shù)據(jù)進(jìn)行自動(dòng)轉(zhuǎn)換,使得用戶(hù)可以在交互過(guò)程中獲得明確的分析結(jié)果,切片功能、鉆探功能,27,第四節(jié)聯(lián)機(jī)分析處理,OLAP,多維檢索功能,OLAP,能檢索并顯示二維或三維表格、圖表和圖表中的數(shù)據(jù),并能容易地變換為基準(zhǔn)軸,從而能綜合不同角度分析到的數(shù)據(jù),更好地支持決策,28,第四節(jié)聯(lián)機(jī)分析處理,OLAP,二、,OLAP,實(shí)例,29,第四節(jié)聯(lián)機(jī)分析處理,OLAP,二、,OLAP,實(shí)例,30,第四節(jié)聯(lián)機(jī)分析處理,OLAP,三、,OLAP,和,OLTP,的區(qū)別,OLTP,OLAP,數(shù)據(jù)源,數(shù)據(jù)庫(kù)原始數(shù)據(jù),數(shù)據(jù)庫(kù)導(dǎo)出數(shù)據(jù)或數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù),數(shù)據(jù)類(lèi)型,細(xì)節(jié)性數(shù)據(jù),綜合性數(shù)據(jù),更新次數(shù),經(jīng)常更新,不可更新,但要周期性地刷新,用戶(hù)數(shù)量,數(shù)量大,相對(duì)較少,面向?qū)ο?面向操作人員,支持日常操作,面向決策人員,支持管理需要,31,第五節(jié)數(shù)據(jù)挖掘技術(shù),一、數(shù)據(jù)挖掘的基本概念,1.數(shù)據(jù)挖掘的定義,數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊和隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取,隱含的、目前未知但潛在有用的模式的非平凡,過(guò)程,;,數(shù)據(jù)挖掘作為知識(shí)發(fā)現(xiàn)過(guò)程的一個(gè)特定步驟,它是對(duì)大容量數(shù)據(jù)和數(shù)據(jù)間關(guān)系進(jìn)行考察和建模的方法集;,它的,目標(biāo),是將大容量數(shù)據(jù)轉(zhuǎn)化為有用的知識(shí)信息,這些信息對(duì)預(yù)測(cè)趨勢(shì)和決策行為是至關(guān)重要的。
32,第五節(jié)數(shù)據(jù)挖掘技術(shù),2.數(shù)據(jù)挖掘的過(guò)程,數(shù)據(jù)挖掘的過(guò)程一般由3階段組成:,數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果的解釋評(píng)估,數(shù)據(jù)挖掘可以描述為這3個(gè)階段的反復(fù),.,33,第五節(jié)數(shù)據(jù)挖掘技術(shù),3.數(shù)據(jù)挖掘的分類(lèi),根據(jù)數(shù)據(jù)挖掘的任務(wù)分:,預(yù)測(cè)模型挖掘、總結(jié)規(guī)則挖掘、關(guān)聯(lián)規(guī)則挖掘、聚類(lèi)規(guī)則挖掘、趨勢(shì)分析、偏差分析等;,根據(jù)數(shù)據(jù)挖掘的對(duì)象分:,關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)、異質(zhì)數(shù)據(jù)庫(kù)、遺產(chǎn)(,legacy),數(shù)據(jù)庫(kù),以及,Web,數(shù)據(jù)源;,根據(jù)數(shù)據(jù)挖掘的方法分:,決策樹(shù)法、人工神經(jīng)網(wǎng)絡(luò)方法、統(tǒng)計(jì)分析方法、遺傳方法和數(shù)據(jù)庫(kù)方法34,第五節(jié)數(shù)據(jù)挖掘技術(shù),二、數(shù)據(jù)挖掘的功能,自動(dòng)預(yù)測(cè)趨勢(shì)和行為,關(guān)聯(lián)分析,聚類(lèi),概念描述,偏差檢測(cè),35,第五節(jié)數(shù)據(jù)挖掘技術(shù),三、數(shù)據(jù)挖掘與,OLAP,數(shù)據(jù)挖掘和,OLAP,是兩種不同基于數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用工具,它們的,用途不同,,基于的,技術(shù)也大相徑庭,;,OLAP,是,驗(yàn)證式,的工具,,OLAP,分析過(guò)程是一個(gè),演繹推理,的過(guò)程;,數(shù)據(jù)挖掘與,OLAP,不同的地方是,數(shù)據(jù)挖掘不是用于驗(yàn)證某個(gè)假定的模型的正確性,而是在數(shù)據(jù)庫(kù)中自己,尋找模型,;,數(shù)據(jù)挖掘過(guò)程是一個(gè),歸納,的過(guò)程。
36,第六節(jié) 數(shù)據(jù)挖掘的方法和工具,一、數(shù)據(jù)挖掘的方法,數(shù)據(jù)挖掘的方法大致可分為4類(lèi):,機(jī)器學(xué)習(xí)方法:,歸納學(xué)習(xí)方法、基于范例的推理,CBR、,遺傳算法、貝葉斯信念網(wǎng)絡(luò)等,統(tǒng)計(jì)方法:,回歸分析、判別分析、探索性分析、以及模糊集、粗糙集、支持向量機(jī)等方法,神經(jīng)網(wǎng)絡(luò)方法:,前向神經(jīng)網(wǎng)絡(luò)、自組織神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)庫(kù)方法:,基于可視化的維數(shù)據(jù)分析或,OLAP,方法,37,第六節(jié)數(shù)據(jù)挖掘的方法和工具,二、數(shù)據(jù)挖掘的系統(tǒng),Enterprise Miner,(,SAS,公司),Intelligent Miner,(,IBM,公司),SetMiner,(,SGI,公司),Clementine,(,SPSS,公司),Warehouse Studio,(,Sybase,公司),See5,(,RuleQuest,Research,公司)等38,第六節(jié)數(shù)據(jù)挖掘的方法和工具,三、數(shù)據(jù)挖掘的應(yīng)用,零售,/,市場(chǎng),識(shí)別顧客的購(gòu)買(mǎi)模式,發(fā)現(xiàn)顧客人口統(tǒng)計(jì)特征方面的關(guān)聯(lián),預(yù)測(cè)對(duì)郵寄促銷(xiāo)活動(dòng)的反映,市場(chǎng)購(gòu)物分析,銀行,發(fā)現(xiàn)偽信用卡使用模式,識(shí)別誠(chéng)信顧客,預(yù)測(cè)可能更換信用卡的顧客,確定不同顧客群使用信用卡消費(fèi)的情況,保險(xiǎn),需求分析,預(yù)測(cè)購(gòu)買(mǎi)新險(xiǎn)種的顧客,39,。
