抖音推薦: 淺談抖音推薦系統的初步研究方向!

yanfei 2020-12-08 17:33

在過去的十年里面,我都在研究搜索引擎,尤其是百度的規則。我們SEO這一行,被許多從業者自身認為是苦力活,這是讓我倍感奇怪的。因為至今我從事的大部分都是基礎理論層面的研究,盡管「基礎理論」看著離「實際應用」頗遠,但也沒那么遠,有收獲不錯的成績——給各種大小網站共計提升過數百萬的日均UV。

重視理論研究,以及重視實踐出真知,這某種程度上可謂是兩大門派了。根據我所觀察的,站隊實踐出真知的人數比例往往是壓倒性的。


微信截圖_20221203102936.png


但是,這里有一個根本矛盾——實踐出真知的「實踐」,到底是該去實踐些什么呢?如果沒有基礎理論的支撐,可能只是瞎想到什么就去瞎試罷了。

憑借著對于搜索引擎的理論研究經驗,最近我開始抽出一部分精力,對抖音的推薦系統做出第一步的探索。

為什么要去研究推薦系統呢?難道不是視頻內容質量決定一切嗎?

這就好比做搜索引擎流量的時候,我的大多同行們也永遠聲張著「內容為王」,卻罕見他們優質的內容有做出什么流量。

類似的,抖音上面,爆火的視頻經常是發布者自己也沒有預料到的,而他們有時發布的自己認為質量很高的視頻反而無人問津。如果單純把原因歸結為「運氣」,就太過隨意了。


畢竟百度的檢索系統和抖音的推薦系統,本質上都是把信息提供給用戶,多少有些異曲同工之處。所以我來談談或許可行的研究方向,可能還算略有資格。

如何初步開啟對于推薦系統的反向研究?

許多年前我就看過科幻扛鼎之作的《三體》系列第一部,直到最近我才剛把后面兩部給看完了。在第二部里面,有一個我極其認同的地方。

書中,主人公羅輯通過得知了兩條宇宙公理,逐步推論出宇宙的「黑暗森林法則」。簡言之,是高級文明在發現任何一個其它文明存在跡象的時候,都會選擇消滅它。這個結論是怎么推論來的,不重要。重要的是,對于書里面的設定,這個結論是「合乎邏輯」的。

因此,當地球即將受到一個高級文明攻擊的時候,主人公便威脅他們:「如果你們不停手,我會把你們星球的位置暴露給其它文明,那么你們就會被其它更高級的文明所摧毀。」最終,證明這個威脅是有效的,地球和那個文明在很長一段時間內維持了和平。主人公羅輯靠邏輯拯救了地球。

為什么?因為只要「黑暗森林法則」是由嚴謹的邏輯推論出來的,同時又因為「邏輯」這個東西放諸四海都一樣有效,所以,更高級的文明極大概率也早已推論出了黑暗森林法則。

換句人話來說:只要我們知道了一個確實經得起邏輯推敲的結論,那么遠遠比我們考慮的更全面更深遠的人,多半是會在這件事上面有共識的。

像是百度、抖音這種在其核心系統,已經做到相對而言非常成熟水平的公司,他們在大方向上自然是已經趨于「完美」的。

所以,我們不一定需要去設法「直接」了解具體百度、抖音是怎么做的,而是可以「間接」的通過邏輯等工具去揣測什么樣才是完美的解決方案。這兩種手段最終的效果往往是差不多的,而后者的可行性通常要強得多。


先舉一個百度上面的例子吧。搜索引擎可以如何通過盡少的數據指標,來判斷一個網頁的質量?

在你閱讀后文之前,我認為這是一個蠻值得先停下來進行思索的問題。

過去多年里面,SEO從業者對于這個問題給出的最常見答案是兩個:

1) PageRank

2) 跳出率


PageRank,是看一個網頁是否有被其它網頁通過鏈接的形式所推薦。若展開說可以說出許多PageRank的局限性,此處跳過。最關鍵的地方在于,它終究只是一個「過程性」的數據指標。和最終用戶對于搜索結果的滿意程度指標,還差了很遠的距離。

有些SEO從業者,或許還會因為自己覺得「跳出率」指標比「PageRank」指標更重要,從而覺得自己專業水平更高。如果那樣想,就是荒謬至極了。


「公理」級別的搜索引擎排序原則是:

設法讓盡多的用戶,在盡短的時間內找到可以滿足自己需求的搜索結果。

如果連公理都沒想明白,后面的一切都是無從展開的。哪怕偶爾做出效果,恐怕也只是運氣的加持。


比方說,你搜索某個明星的身高,一個搜索結果網頁上明確的告訴你答案了,你看到這個答案后,迅速的關閉了被打開的網頁。這時候,跳出率是100%,但哪有存在任何問題嗎?

如果你沒有跳出,還繼續訪問了網站上面其它的網頁,在一部分情況下反而可能說明,你的搜索需求或許沒有被直接滿足,還在花費更多時間去找想要的東西。所以,跳出率在個別情況下,甚至是和網頁質量呈現負相關的,沒理由被百度當做核心指標(而且百度怎么去全面收集第三方網站的跳出率也是個問題)。

所以,百度該看什么指標呢?這兩年,不少從業者可能給出的一個答案是,看用戶在搜索結果頁面上面,對于每一個搜索結果的點擊率。

但這里的問題也非常明顯。確實,用戶都不樂意點的搜索結果,自然多半是不那么高質量的;但平常大家都是用過搜索引擎的,應該清楚,當點擊了一條搜索結果以后,也經常會覺得這并不是自己想要的,然后又退出來打開其他搜索結果。所以,單純的點擊行為,并沒法全面的說明問題。

其實最終答案已經提到了。理論上接近完美的解決方案正是,去看用戶點擊了當前的搜索結果之后,是否還會退回百度去點擊其它搜索結果;如果點擊了當前搜索結果之后,就把百度關閉了,那這就是大概率是一次滿意的搜索行為。

得到這樣的猜想之后,還可以設法去收集數據來驗證。既然我在這里寫這個東西,自然是實際數據驗證過的。


但其實,用數據去驗證猜想這一步,在不少情況下甚至是可有可無的。道理就是前面說的,只要我們的結論邏輯上是足夠經得起推敲的,百度做了十幾年的搜索引擎還沒想到這一點的可能性是幾乎不存在的。

這也正是邏輯工具的一個強大之處所在——通過實踐去驗證,通過數據去驗證,盡管在很多場景下仍然是更好的選擇,但在另一些場景下,因為實驗、數據收集都有時間、技術等方面的難題,會使得這些手段變得極為低效,難以獲得研究成果上的質變。

唯有邏輯,只需要我們的大腦。


在進入抖音的話題之前,還是先來再談個外賣的排序研究。幾年前有個小伙伴和我說她可能要去和人合伙做外賣創業了,花了不到一個小時簡單給看了下。具體看的是哪一家外賣平臺的我給忘了。

這是一個可能更容易被理解的簡單統計為主的粗淺研究,但仍有非常直接有效的用途。


首先,我們總是應該通過各種方式,把能確定的東西盡可能的確定下來,之后再去做未知部分的探索。比方說搜索引擎,能確定的東西很大一部分來自于搜索引擎原理書籍、百度官方搜索資源平臺的文章、百度專利……當然,還有在無論任何領域都通用的——常識。

常識告訴我們,外賣的配送距離或是時間,一定是排序影響最大的因素之一。

其次,常識也能告訴我們,口味的評分、銷量等一些和用戶反饋相關的數據指標,也較有可能是會影響排序先后的。

隨后,收集具體的排序結果,及對應的數據指標。


如果一家店,前面幾個指標表現都良好,排名也不錯,就視為正常結果。反之,如果排名不錯,但主要指標都不佳的那些排序結果,則是主要需要分析的部分。

只要分析到這些結果的共性(且同時差異于正常結果的),便基本上是真正對排名有影響的地方。

第一個額外排序因素很快就被發掘到了,新店。對于新開的店,外賣平臺會先流量扶持一陣。但這個排序因素可操作性不強,并非我關注的重點。

刨除掉新店影響后,繼續分析剩余那些排名異常的店家的共性,發現了那些商家的圖片,大多數都是品牌LOGO,而這些商家都使用了菜品的圖片。大部分場景下,商品圖片的CTR都明顯高于品牌LOGO,因此基本可以斷定,點擊率或受到點擊率影響的其它指標,是一個重要的排序因素。


也因此,外賣排名談什么刷單、好評返現刷評分等等極其高成本的操作之前,哪怕花幾分鐘把商家圖片從品牌LOGO換成菜品,訂單量也能大幅提升。

是不是聽上去蠻有意思的?


相比起研究了早就超過10000小時的搜索引擎,抖音我到現在不過研究了最多十幾二十個小時。于是能寫的東西,相對淺薄許多。

首先,我第一步仍然是在統計的方向進行了探索。得出的結論是,如果單純的橫向對比同一個發布者的視頻,這時評論÷獲贊比例、轉發÷獲贊比例這般的指標,整體上和獲贊量沒有呈現明顯的正相關,甚至在個別專業領域下,它們有時是呈現出負相關的。類似的,從其它方式收集到的一些個例來看,甚至在橫向對比同一個發布者的視頻時,完播率(完整看完整個視頻的比率)和播放量之間也沒有比較必然的聯系。

這兩天粗看了一本推薦系統原理方面的書籍。期間,有想到一個可能比較重要的思想實驗:

假設抖音推送了一條超級美女的視頻,那么可以想象,男人都是大豬蹄子,看完的可能性很大;而且女性通常天性上也會欣賞美女,因為有代入感(反過來男性不那么會欣賞帥哥),看完的可能性也不小。

鑒于大眾對于美女的喜愛,以及這類視頻在整個平臺里面幾乎算時長最短的類型。這時,這些視頻的完播率很可能是很高的。

而且,抖音這種大型平臺里面不乏超級美女(和強大的美顏功能或多或少有關系),它可以不斷的推送這樣的視頻。如果這樣,用戶在線時長在短期內可以達到很大的提升。

但這樣的話,用戶花不了多久就會發現全都只是這一類視頻,漸漸覺得抖音內容過于缺乏多樣性。再怎么樣的美女看多還是會看膩,用戶就逐漸流失。因此抖音必然是要么存在一個機制,天生就使得這一類(或類似)視頻不會過度爆火,要么是額外存在著一個抑制機制。


同時,在刷抖音的實際過程里面不難發現的是,每一類自己感興趣的領域,刷到的視頻數量總體上是相對平均的。很少會連續拼命推送同一類型的視頻。

對于以上兩個現象,不難得到一種猜想:抖音根據每個用戶的喜好程度,給TA推送相應數量比例的那些個「類別」的視頻。一些質量數據指標,只需要在特定類別里面有相對的領先就夠了。


如果上述猜想是正確的,那么如何從抖音獲得更高的推送量?

答案就是,把自己的視頻蹭到有更多用戶關注的類別里面去,也就是「蹭熱點」。

似乎像是說了一句廢話,因為稍微認真做過抖音的人,應該都知道蹭熱點可以獲得更多播放量,看上去沒有什么技術含量可言。


比如有一個抖音號叫做「大能」,主要是講玩表的話題,抖音至今才做了不到兩個月,已經有了將近700萬的粉絲。玩表是非常小眾的領域,但他的視頻仍然經常能有幾十萬的獲贊,不乏偶爾爆出個百萬級別獲贊的視頻。其中的主要原因之一就是他喜歡蹭熱點。

他獲贊最多的視頻將近兩百萬,那個視頻在羅志祥成為話題人物的期間,講的是「羅志祥戴的是什么表」。大家都樂意八卦一下渣男的奢侈生活,于是在原本玩表的話題上面,完美的順勢蹭到了一波熱點。但顯而易見的是,這種「完美順勢蹭熱點」的機會是可遇不可求的,并且對文案創作有較高的要求。

這些天,他又蹭了一個熱點,視頻里面講「隱秘的角落」這個時下大紅大火的電視劇,又收獲了幾十萬的獲贊。但這個視頻講的主要是他對于這部電視劇的感想,和玩表的話題完全無關,因此新增的粉絲肯定是不精準的。這種蹭熱點,完全就屬于是「強蹭熱點」,肯定不能說毫無作用,但相對而言會收益有限。


「完美順勢蹭熱點」的收益巨大但前提條件較為苛刻,「強蹭熱點」沒什么前提條件但收益較小。因此一個更具研究價值的方向,就是去尋找那些既容易實現,又收益更高的辦法。


首先,應該先明白抖音大體上是如何判斷一個視頻的所屬類別的,這是我們去蹭別的類別的前提?!割悇e」這個東西可不是普通人直覺上那么簡單的東西,遠遠不是隨便把一個視頻歸屬到一個類目這么簡單。在機器學習的領域,它主要是「分類」和「聚類」兩大塊,根據目前的分析,抖音多半是以聚類為主導的。但聚類對于沒有機器學習相關經驗的人,卻又難以三言兩語描述清楚,這里無從展開。

其次,也應該要明白一個根本矛盾——蹭一個不是很相關的類別的同時,因為播放量被抖音分發給了對視頻沒直接興趣的用戶,很容易會把視頻的質量數據指標拉低,反而導致抖音不樂意后續再分發更多用戶過來。

所以,如何在不顯著影響質量數據指標的同時,蹭到抖音其它類別/熱點的流量,是現階段我的主要研究方向之一。已經有了個別的側面佐證,正在設法實際驗證。而這里,就留個懸念了。

1.明智云遵循行業規范,任何轉載的稿件都會明確標注作者和來源。
2.明智云的原創文章,請轉載時務必注明文章作者和"來源:明智云",不尊重原創的行為或將追究責任。

主站蜘蛛池模板: 四虎国产精品永久在线| 国产男女爽爽爽爽爽免费视频| 久久久一本精品99久久精品88| 五月天丁香久久| 在线播放亚洲第一字幕| 一个人看的www视频免费在线观看 一个人看的www高清直播在线观看 | 国产激情视频在线播放| 91进入蜜桃臀在线播放| 奇米影视亚洲春色| 久热国产在线视频| 欧美成人看片黄a免费看| 四虎影视永久在线观看| 2022久久国产精品免费热麻豆| 无遮挡一级毛片视频| 亚洲欧美日韩国产精品网| 精品一区二区三区无卡乱码| 国产日韩精品欧美一区| 2020年亚洲天天爽天天噜| 御书宅自由小说阅读无弹窗| 亚洲中字慕日产2021| 欧美特黄一片aa大片免费看| 亚洲色国产欧美日韩| 色综合合久久天天给综看| 国产精选之刘婷野战| aaaa级少妇高潮大片在线观看| 少妇高潮惨叫久久久久久 | 跪着侍候娇吟羞辱鞭打| 国产小呦泬泬99精品| 99久久精品九九亚洲精品| 好男人看片在线视频观看免费观看| 中文在线√天堂| 成年美女黄网站色大片免费看| 亚洲av无码专区在线观看下载| 欧美在线观看视频一区| 亚洲欧洲小视频| 精品国产免费一区二区三区| 四虎成人精品在永久在线观看| 色黄网站成年女人色毛片| 国产亚洲美女精品久久久久 | 日本精品少妇一区二区三区| 久草手机在线播放|