聯(lián)商網(wǎng)前言:Netflix是近年來迅速竄起來的美國知名影片,音樂租賃零售商,已經(jīng)連續(xù)五次被評為顧客最滿意的網(wǎng)站。公司可以提供在線影片租賃觀看,或者租賃實體DVD,并在大多數(shù)的知名實體零售商內(nèi)設(shè)有Netflix自動影片租賃亭。在其急速滲透至美國消費者家庭的同時我們不得不感嘆公司背后強大的技術(shù)支持,下文分享的是Netflix基于用戶搜索作出的相關(guān)推薦運算法,譯者想表達(dá)的是:簡單的現(xiàn)象背后不簡單的工程。
假如你用過Netflix的影片租賃服務(wù),你可能會被它基于你搜索下的影片相關(guān)推薦給驚訝到,因為它的“相關(guān)推薦”是在是有點特殊、甚至讓你覺得摸不著頭腦。
假如Netflix要為其約4000萬名顧客作出特殊的影片定制推薦,那它需要多大的個性化類型數(shù)據(jù)庫去描述整個好萊塢的電影呢?
當(dāng)筆者意識到自己可能發(fā)現(xiàn)Netflix算法規(guī)律后,深深的被這個網(wǎng)站的技術(shù)理念給震懾了。通過大量而且重復(fù)工作,筆者發(fā)現(xiàn)Netflix的影片數(shù)據(jù)分類不是簡單的分幾百或幾千個,這個網(wǎng)站有76897種獨立的電影分類方法。
我們花了數(shù)周的時間去理解,分析,逆向解析Netflix的詞匯和語法的分類原理。我們已經(jīng)拆分了Netflix最受歡迎的分類,計算出最受歡迎的演員和導(dǎo)演。
有史以來從沒有一家公司會像Netflix整合過這些數(shù)據(jù)。從數(shù)據(jù)中可以得知:Netflix分析非常細(xì)致,給每一部電影和電視劇都會設(shè)定標(biāo)簽。他們幾乎擁有所有好萊塢的影片,而那些我們找到的流派僅僅是整個數(shù)據(jù)庫的冰山一角。
我們逆向解構(gòu)Netflix的系統(tǒng)原理,發(fā)現(xiàn)真的難以超越。公司雇傭了很多人,工作前需要閱讀長達(dá)36頁的培訓(xùn)文件,然后訓(xùn)練他們?nèi)绾螌τ捌陌凳拘詢?nèi)容、暴力程度、浪漫情節(jié)等元素做出精準(zhǔn)的評級、分類。
他們捕捉了數(shù)萬種不同的電影屬性,甚至還為影片主要人物進(jìn)行道德評級。這些標(biāo)簽,與4000萬用戶的看片習(xí)慣進(jìn)行匹配,隨即形成了Netflix獨一無二的競爭優(yōu)勢。
在Netflix線下銷售中沒有一部電影的標(biāo)簽超過五個,三個描述詞的比較多:如戀愛無果外國喜劇片,兩個描述詞的最常用,用得最多的就是一個形容詞。
從《洛杉磯時報》的一篇文章中我們學(xué)到了設(shè)置標(biāo)簽的基本知識。這些標(biāo)簽是如何與Netflix的個性化推薦祥結(jié)合的?是什么樣的算法能將標(biāo)簽精確地轉(zhuǎn)化為76897個分類?
其中關(guān)鍵的一步是:將設(shè)置標(biāo)簽的人類智慧與有著運算法則的機器智能相結(jié)合。不難看出,Netflix公司”個性化類型“完全是人為形成的,也從側(cè)面反映出人類可能還不能獨立解決這一問題。例如,形容詞“賞心悅目的”,要想給電影貼上這樣的標(biāo)簽,電影必須滿足一系列特征以外,更重要的是有一個美滿的結(jié)局。工程師在給一部電影分類時,依據(jù)的是一系列基本的標(biāo)簽,并不是直接得到這個電影的類型。
Netflix公司甚至拿出100萬美元的獎金用于鼓勵團(tuán)隊設(shè)計出算法。要求其算法能夠提高公司預(yù)測用戶給電影評星的能力。而團(tuán)隊花費數(shù)年時間也僅僅把算法提高10%。
Netflix這么做的最主要目的是留住訂閱用戶。而我們之前表象看到的奇怪推薦正是他們戰(zhàn)略的重要部分。早在2012年時,Netflix就在其官博中提到,“能精確捕捉到用戶喜歡的微類型內(nèi)容,就能用提升訂購率,從而拉開自己與競爭對手的差距”事實也證明,Netflix更了解用戶,其網(wǎng)站內(nèi)容對于用戶的粘性就越強。
現(xiàn)在Netflix建立了屬于自己用戶對美國電影喜好的強大數(shù)據(jù)庫。該數(shù)據(jù)庫雖然不能告訴導(dǎo)演編劇影視劇要怎么拍才能有好票房,但至少能提醒美國的制片人,影片需要有哪些元素才能抓住美國觀眾的眼球,例如在拍攝美劇“紙牌屋”的時候,就很好的利用了這些元素。
。(lián)商網(wǎng)編譯,轉(zhuǎn)載注明出處)