99久久精品这里只有精品,欧美+日韩精品,国产欧美日韩中文久久,黄 色 成 人 免费网站,久久久噜噜噜久久

決策樹算法在零售企業(yè)中的應(yīng)用
作者:文/中顥潤數(shù)據(jù)分析師事務(wù)所;出處:《店長》2014年11月號 總第34期
收藏此文章 打印 字號     

決策樹算法是一種常用的數(shù)據(jù)挖掘算法,它是從機(jī)器學(xué)習(xí)領(lǐng)域中逐漸發(fā)展起來的一種分類函數(shù)逼近方法。決策樹學(xué)習(xí)的基本算法是貪心算法,采用自頂向下的遞歸方式構(gòu)造決策樹。決策樹可用來分類,也可用作預(yù)測,它可以應(yīng)用在成本、存貨、銷售和售后服務(wù)等各個(gè)方面。決策樹的經(jīng)典算法有很多種,本文主要介紹以信息熵為基礎(chǔ)的C4.5(生成決策樹)算法的應(yīng)用。

1C4.5決策樹算法概述

設(shè)S是訓(xùn)練樣本集,它包含n個(gè)類別的樣本,這些類別分別用C1,C2,……,Cn表示,設(shè)Si是類Ci的樣本數(shù),那么S的熵(entropy)或者期望信息為:

entropy(S)=

式中Pi為任意樣本屬于Ci的概率。這里的對數(shù)以2為底,因?yàn)樾畔⒂枚M(jìn)制編碼。

設(shè)屬性AS劃分成m份,根據(jù)A劃分的子集的熵或期望信息由下式給出:

entropy(S,A)=

其中Si表示根據(jù)屬性A劃分的S的第i個(gè)子集,|S||Si|分別表示SSi中的樣本數(shù)目。信息增益用來衡量熵的期望減少值。因此,使用屬性AS進(jìn)行劃分獲得的信息增益為:

gain(S,A)=entropy(S)-entropy(S,A)

gain(S,A)是指因?yàn)橹缹傩?/span>A的值后導(dǎo)致的熵的期望壓縮。gain(S,A)越大,說明選擇測試屬性A對分類提供的信息越多。因?yàn)殪卦叫〈砉?jié)點(diǎn)越純,按照信息增益的定義,信息增益越大,熵的減小量也越大,節(jié)點(diǎn)就趨向于更純。

算法計(jì)算每個(gè)屬性的信息增益,具有最高信息增益的屬性作為集合S的測試屬性。創(chuàng)建一個(gè)節(jié)點(diǎn),并以該屬性標(biāo)記,對屬性的每個(gè)值創(chuàng)建分支,并據(jù)此劃分樣本。

算法計(jì)算每個(gè)屬性的信息增益,具有最高信息增益的屬性作為集合S的測試屬性。創(chuàng)建一個(gè)節(jié)點(diǎn),并以該屬性標(biāo)記,對屬性的每個(gè)值創(chuàng)建分支,并據(jù)此劃分樣本。

2.決策樹算法應(yīng)用于成本分析

上述算法的概述只是簡單的介紹了算法的理論,看似非常復(fù)雜,但其實(shí)應(yīng)用起來是很方便的,而且可喜的是許多計(jì)算機(jī)軟件給我們的計(jì)算提供了更大的方便,SPSS軟件、Excel等都可以直接得到?jīng)Q策樹的分析結(jié)果,從而大大減輕了大量計(jì)算帶來的壓力,讀者若覺得理論看起來枯燥,那么下面就用兩個(gè)通俗易懂的實(shí)例來說明,以便大家能夠更好的應(yīng)用此算法,而不是始終糾結(jié)于算法的推導(dǎo)過程。

假設(shè)某零售企業(yè)的某門店在某月的銷售產(chǎn)品為300種,每種當(dāng)月的累計(jì)銷量、庫存額以及商品損耗如下表所示。利用決策樹算法,將商品類別以及庫存和損耗作為分類屬性,將成本差異作為挖掘目標(biāo)。初始時(shí)刻根據(jù)每一種商品成本差異是否符合要求分為兩類:一類是有利差異(實(shí)際成本小于標(biāo)準(zhǔn)成本),另一類是不利差異(實(shí)際成本大于或等于標(biāo)準(zhǔn)成本),見表1-1。

1-1某零售企業(yè)某門店××月商品匯總表

商品名稱

商品類別

銷量

庫存

損耗

商品1

類別1

300

100

7

商品2

類別2

500

200

5

商品3

類別3

700

400

10

商品4

類別4

1000

600

20

商品5

類別5

200

300

0

將表1-1的數(shù)據(jù)用SPSS軟件進(jìn)行決策樹分析,分別得出商品類別屬性、庫存屬性及損耗屬性的條件熵分別為:0.6740.723、0.799比特,可見,商品類別屬性的條件熵最小,進(jìn)而其增益就最大,故選擇商品類別進(jìn)行劃分得到?jīng)Q策樹如圖1所示。圖中每種商品的有利差異和不利差異用SO表示,庫存及損耗數(shù)量小于閥值則為其有利差異用F表示和大于閥值則為其不利差異用U表示。

從圖1-1中可以看出,類別3和類別5這兩類商品的有利差異的概率比較低,因此要對這兩類商品加強(qiáng)管理,控制各個(gè)環(huán)節(jié)的費(fèi)用,此外還要加強(qiáng)對庫存和損耗的分析和控制。

1-1零售企業(yè)成本分析決策樹

3決策樹算法應(yīng)用于顧客投訴

選取一個(gè)零售企業(yè)的服務(wù)系統(tǒng),從中篩選出1000份顧客投訴信息,選取字段包括:顧客編號、投訴商品、投訴原因、投訴類別、投訴價(jià)值、處理方式及顧客獲得的二次滿意度。對以上字段的指標(biāo)值設(shè)置見表1-2。

表1-各投訴數(shù)據(jù)指標(biāo)賦值表

投訴商品

1

家具

投訴原因

1

質(zhì)量問題

投訴處理方法

1

賠償

2

家電

2

服務(wù)態(tài)度

3

日用品

3

惡意欺詐

2

退貨

4

食品

顧客訴后滿意度

1

非常滿意

5

化妝品

2

滿意

3

道歉

6

奢侈品

3

基本滿意

7

服裝

4

不滿意

4

更換

8

鞋類

5

非常不滿意

經(jīng)過分析可以得出,顧客投訴的產(chǎn)品種類包括家具、家電日用品、食品等八類商品,如圖1-2所示,其中投訴率最高的商品是服裝,占到了21.4%;投訴率次之的是食品,占總投訴率的17.9%;另外化妝品鞋類、日用品的投訴率都在10%以上;投訴率最少的是奢侈品。而投訴這八類產(chǎn)品的原因大致可分為三類:第一類原因是質(zhì)量問題,第二類原因是服務(wù)質(zhì)量或服務(wù)態(tài)度引起的投訴,第三類原因是理由不充分的投訴,比如顧客可能是由于自身的原因?qū)е铝速徺I商品出現(xiàn)問題,卻誤將問題轉(zhuǎn)嫁到企業(yè)頭上以獲得賠償?shù)?/span>。

從圖1-3可以看出,食品、服裝和鞋類由于質(zhì)量問題導(dǎo)致投訴的頻次較高,而日用品、家具、家電及化妝品等類別類產(chǎn)品由于服務(wù)態(tài)度問題導(dǎo)致投訴的頻次較高。

1-3  顧客投訴商品的原因分布

 

下面根據(jù)決策樹算法對顧客訴后的滿意度進(jìn)行分析,形成的樹狀決策樹,如圖1-4所示。

客戶訴后滿意度

1-4  規(guī)則樹圖

從圖1-4可以看出,該決策樹被分為三層。變量“投訴產(chǎn)品處理方法”在所有變量中具有最大的信息熵和最大信息增益率。這表示投訴產(chǎn)品的處理方法是影響顧客滿意度評估的最重要因素,其次是投訴商品的價(jià)值。

通過運(yùn)算結(jié)果可以看出,顧客訴后滿意度以“基本滿意”為主,決策樹的第一個(gè)最佳分組變量是“投訴處理方法”并以此形成三叉樹:處理方式為賠償?shù)念櫩驮V后滿意度為“滿意”;處理方式為退貨和道歉的顧客訴后滿意度為“基本滿意”;處理方式為更換商品的這個(gè)節(jié)點(diǎn)下的最佳分組變量為投訴商品的價(jià)值指數(shù),根據(jù)商品價(jià)值的分箱結(jié)果,小于等于723元的商品分為一組,該節(jié)點(diǎn)是葉節(jié)點(diǎn),預(yù)測結(jié)果為基本滿意。另外,商品價(jià)值大于723元的商品分為另一組,預(yù)測結(jié)果為不滿意。

以上介紹了決策樹在成本分析及顧客投訴方面的應(yīng)用,從廣義上來說,決策樹可以應(yīng)用在零售企業(yè)的各個(gè)環(huán)節(jié),從生產(chǎn)到銷售再到擴(kuò)大再生產(chǎn)、存貨分析、資金周轉(zhuǎn)等各方面都有廣泛的應(yīng)用,讀者可根據(jù)自己的興趣詳細(xì)討論之。