都市在線 | 漳州發展網
ad1
您所在的位置: 都市在線 > 科技

深度直播新紅海,狼人殺火爆背後的這4個語音視頻技術不可不知

來源:互聯網    發布時間:2017-04-02 20:46   作者:柳暮雪   關鍵詞:直播,視頻,技術,直播,視頻,技術,直播,視頻,技術

深度|直播新紅海,狼人殺火爆背後的這4個語音視頻技術不可不知

狼人殺,剛剛崛起,就陷入紅海競争。

一切發展的太快,都還來不及思考,APP 排行榜上就擠滿了同質化的狼人殺産品。

經過 2016 年直播元年的驅動,語音視頻雲服務已經相對成熟。因此,狼人殺語音視頻入門相對容易,集成第三方的技術方案用就可以了。

然而,狼人殺語音視頻要差異化卻十分困難,因為不管是自研還是采用第三方的技術方案, 都還存在一些關鍵的痛點:

噪音抑制

回聲消除

低延遲

多路連麥

語音視頻的技術難度在業内被公認是十分高的,如果能很好地解決這些技術問題,狼人殺就能建立堅固的技術壁壘。在語音連麥的基礎之上,再加上視頻連麥的能力,那麼狼人殺就能構築安全的護城河,為進一步的業務創新提供有力的技術支撐。

下面我們展開讨論一下狼人殺如何構築技術壁壘。

噪音抑制(NS, Noise Suppression)

狼人殺最頭疼的問題就是背景噪音,沒有之一。

拿一個十二人一局的狼人殺遊戲為例,每一個用戶都會帶入一定程度的背景噪音。十二個人的背景噪音疊加在一起,簡直是沒辦法玩了。參加過視頻會議的朋友應該是有所體會,如果有一個參會者是在汽車上接入視頻會議的,那麼這個參會者就要把麥克風關掉,不然這會議就沒辦法開了。在狼人殺遊戲中,這個問題會更加嚴重,你不能讓某個用戶把麥克風關掉,你也不能要求用戶在沒有噪音的環境下加入遊戲,用戶體驗永遠是擺在第一位的。

終端設備采集進去的聲音可以分為三種:

發言人的聲音

發言人周圍的聲音

白噪音

第一種聲音是有效的,第二和第三種聲音是無效的。第二種聲音是無法抑制的,因為系統無法區分這是否是用戶有意制造的聲音。第三種聲音是白噪音,在每一個頻段的功率都是均勻的,可以類比為包含了所有顔色的白光,白噪音是可以通過算法來抑制的。

衡量噪音抑制的效果好不好,關鍵的技術指标有兩個:

信噪比提高的幅度

語音音質的保真度

一般來說,信噪比不應該低于 70dB,高保真音箱的信噪比應達到 110dB 以上。 噪音抑制的作用是要提高信噪比的同時保持語音音質不失真。考慮到狼人殺的應用場景要進行多人高頻率強互動,狼人殺的語音方案要結合了聲學心理學模型,信噪比要能夠提高 20dB 以上,同時不損傷語音的音質,才能獲得比較好的用戶體驗。

回聲消除(AEC, Acoustic Echo Cancellation)

如果說噪音抑制是狼人殺的基礎痛點,那麼回聲消除就是狼人殺差異化的殺手锏。為什麼那麼說?狼人殺首先是個遊戲平台,然後才是社交平台。作為遊戲平台,要在輪流發言的殺人遊戲環節解決噪音抑制問題,遊戲平台的用戶體驗才能做好;作為社交平台,要在複盤讨論的社交環節解決回聲消除問題,社交平台的用戶體驗才能差異化。然而,回聲消除的技術難度十分高。因此,回聲消除是狼人殺從遊戲走向社交必須要打的硬仗。解決了,就是社交平台;解決不掉,就隻是一款遊戲。在資本市場上,遊戲和社交産品的估值可是天壤之别的。

回聲消除可以分為硬件層次的和軟件層次的。一般來說,在硬件層次,硬件會做一些基礎的回聲消除工作。目前的音頻終端硬件主要包括 PC(Intel+Windows)、安卓手機、和蘋果手機。PC 端沒有做回聲消除;安卓手機對回聲消除做得不好,而且效果參出不齊;蘋果手機的回聲消除做得相對效果比較好。在軟件層次,軟件要抹平這些硬件平台的區别,确保在不同平台上回聲消除的效果都要良好,都要保持一緻。

這裡隻會簡單介紹回聲消除的原理,有詳細學習需要的同學請自行百度之。從麥克風采集到的聲音包括用戶近端的有效聲音加上近端回聲(NE, Near Echo)。回聲消除的目的就是要把近端回音消除掉。如果沒有任何參考信号,要把近端回音消除掉是不可能完成的任務,軟件算法無法區分哪些是有效聲音信号,哪些是近端回音信号。

軟件算法采用遠端回聲(FE, Far Echo)作為參考信号來消除回聲。雖然近端回聲和遠端回聲不完全相同,但是高度相關,可以通過一個函數來表示:NE=f(FE)。這個函數 f(x) 就是回聲路徑,表達了遠端回聲在空氣中經過多次反射等環境影響以後如何變成近端回聲的。從技術的角度看,回聲消除就是要從麥克風采集到的聲音中,把 FE 經過回聲路徑後變成的 NE 消除掉,本質上是對回聲路徑函數進行求解。

深度|直播新紅海,狼人殺火爆背後的這4個語音視頻技術不可不知

圖 1 回音消除的基本原理

回音消除的效果好不好,該如何衡量?有兩個指标可以衡量:1)回聲有沒有消除掉;2)在雙講條件下效果好不好。比較拓撲的說法是,回音消除要麼沒有消除完全,要麼消除過度。如果沒有消除完全,就會有回音漏掉;如果消除過度,就會帶來失真。

狼人殺的應用場景對回聲消除的要求十分的高。在複盤讨論環節,十來個用戶同時開着麥克風和揚聲器七嘴八舌進行攤牌對講,十來路的回聲,十幾個人在搶話。在這種極端的語音環境中,即使在線下進行都有聽不清的時候,更何況在線上進行。因此,回聲消除是對狼人殺十分有挑戰的技術。

低延遲

關于語音視頻通訊如何做到低延遲,筆者已經在雷鋒網發表過的一篇技術專欄文章中做了詳盡的探讨。請參照雷鋒網的文章,這裡就不再展開論述了:

“為了互動直播,如何讓直播技術實現低延遲?”

狼人殺語音視頻雲的系統架構和直播雲的系統架構比較接近,可以通過下圖來展現。

深度|直播新紅海,狼人殺火爆背後的這4個語音視頻技術不可不知

圖 2 即構科技狼人殺音視頻多路連麥系統架構

要降低語音視頻通訊的延遲,要從三個方面入手:

選擇最優的傳輸路徑;

選擇最優質的網絡資源;

在各個傳輸環節做到最優。

語音視頻處理和傳輸的鍊條比較長,從推流端開始到拉流端總共至少經過九個環節。

深度|直播新紅海,狼人殺火爆背後的這4個語音視頻技術不可不知

圖 3 語音視頻處理和傳輸的環節

一個語音視頻通訊系統除了要有實時的系統架構,還要在每個環節上做到最優,每個環節能節省一點點時間,整體節省的時間就會相當可觀。

直播的語音視頻通訊包括了語音和視頻的傳輸和處理,而狼人殺的語音視頻通訊目前大部分以語音為基礎,視頻作為差異化點。視頻碼率一般會達到幾百kbps,音頻的碼率一般會達到幾十kbps。

語音視頻通訊的延遲要多低才算是好?可以拿一線的直播産品作為标杆,比如說,花椒直播的延遲一般可以達到 400 毫秒。一般來說,語音視頻的延遲低于 800 毫秒,就可以做連麥互動了;如果能達到 400 毫秒,那是相當優秀的,可以進行連麥合唱了。

多路語音連麥

在狼人殺的殺人遊戲環節,用戶需要通過語音進行互動。筆者體驗過市面上有代表性的十來款狼人殺産品,發現有的産品允許用戶多個人在同一時間發言,有的産品隻允許輪到的用戶發言。前者的應用場景使用了多路語音連麥,後者的應用場景使用了單向的語音通話。

多路語音連麥是指是雙工模式,多個用戶可以同時講話,可以聽到所有人講話。單向的語音通話指的是單工模式,雖然多個用戶可以輪流說話,但是每次隻有一個用戶被允許說話,其它用戶處于聆聽的模式。多路語音連麥要求延遲極低,一般要達到 500 毫秒以下才能取得比較好的語音對講效果。單向語音通話的延遲一般比較大,一般都達到 1 秒到 3 秒,甚至更大。這種技術條件下,要進行互動對講的話,用戶體驗是比較差的。

不管目前狼人殺的産品形态如何,可以肯定的是多路語音連麥的用戶體驗是要比單向語音通話體驗要優越的。不管狼人殺的産品如何演進,可以肯定的是,整個狼人殺的技術都會向多路語音連麥進行對齊。畢竟,多路語音連麥不但能夠支持更多的玩法和業務創新,而且能夠讓狼人殺從遊戲升級為社交變為可能。目前,很多狼人殺産品還停留在單向語音通話的階段,這不是因為應用場景的需要,而是因為技術條件的限制。

多路語音連麥雖然在狼人殺行業還沒有普及,但是在直播行業已經成為标配。直播行業在技術上是比狼人殺行業先走了一步,不管是連麥互動的玩法創新,還是多路音視頻連麥,都要比狼人殺行業在技術上有更多的探索和驗證。然而,狼人殺的應用場景比直播的應用場景要有更多的互動性。比如說,在直播的應用場景中,一般三個主播連麥互動比較合适,四個就有點嫌多,手機的小屏幕放不下了;然而,在狼人殺的應用場景中,人數最少的六人局就已經是對平民的單邊屠殺了,十二人局才稍微比較平衡。

深度|直播新紅海,狼人殺火爆背後的這4個語音視頻技術不可不知

圖 4 多路語音連麥将成為狼人殺标配

相信随着狼人殺在 2017 年的蓬勃發展,用戶和廠商會共同探索出更多新鮮的玩法。連麥互動已經成為直播行業的标配,多路連麥的産品形态也在不斷的嘗試中。用戶的口味隻會提高不會降低,多路語音連麥也将會成為狼人殺行業的标配。

從語音升級到視頻

在 2017 年的年中,多路語音連麥将會成為狼人殺行業的标配。筆者敢于做這樣推斷的理由有兩個:

可以多路語音視頻連麥的雲服務已經在 2016 年中被直播行業驗證過,無論是技術還是服務都是被直播行業認可的。

自行研發多路語音連麥技術,在短期甚至中期都不現實。而對狼人殺産品來說速度就是存活的關鍵。因此将會采用語音視頻雲服務的第三方方案迅速進行能力對齊。

多路語音連麥是不是狼人殺的最終産品形态? 還言之過早,至少,語音升級的下一站是視頻。筆者如此推斷的理由也有兩個:

狼人殺的殺人環節中,用戶需要對其它用戶進行表情觀察,這是進行分析判斷的剛需,也可以增加遊戲的趣味性。筆者曾試玩過一款前十名的狼人殺産品,輪到發言的用戶的視頻會全屏顯示,當看到他的全屏視頻顯示的時候,筆者的個人體會就是眼前一亮,遊戲就變得更加有社交意味。

深度|直播新紅海,狼人殺火爆背後的這4個語音視頻技術不可不知

圖 5 即構科技的狼人殺 12 路語音視頻連麥互動

狼人殺的下一站是社交,社交最自然的溝通方式就是語音加視頻,全面還原線下面對面的場景。狼人殺社交的第一個突破口就是複盤讨論環節。在複盤讨論環節中,用戶不需要表演和假裝,語音視頻連麥互動聊天将會變成最簡單直接的需求。複盤讨論環節的社交對狼人殺廠商來說隻是起點,如何把用戶的社交互動做起來是他們的手段,如何把用戶的關系鍊沉澱下來才是他們的目的。目前在國外爆發的多人語音視頻線上 Party 産品也許對狼人殺會有更多的啟發。不管如何,狼人殺的目的是社交,社交的最終形态就是要盡量還原線下場景。畢竟,看得見聽得到的語音視頻連麥才是最自然的溝通方式。圖 6 現象級視頻群聊産品 Houseparty 對狼人殺的社交嘗試有啟發意義

狼人殺是一個成熟的遊戲,互聯網是個開放的市場,這意味着任何好的玩法一經推出都很快被競品複制,最終狼人殺會陷入同質化的競争泥沼。這個時候,如果要差異化競争,就必須要不斷對運營和産品升級,而運營和産品升級必須要底層技術的強勁支撐。于是,技術必然會從單向語音通話,到多路音頻連麥,然後再到多路語音視頻連麥。

2016 年直播行業已經為狼人殺催熟了語音視頻技術和培育好了語音視頻用戶,2017 年狼人殺行業會加速走完技術升級的曆程。能迅速走完技術升級曆程的狼人殺廠商将會進入下一輪競争,比拼社交平台的産品和運營能力,一如現在的直播行業;不能迅速走完技術升級曆程的狼人殺廠商就會逐漸退出或者轉型。

狼人殺語音視頻,入門容易差異化難。困難不僅在于關鍵的痛點,而且在于速度。慢半拍産品隻會被丢入長尾的紅塵中,被下一波的浪潮淹沒。

http://m.juhua354442.cn|http://wap.juhua354442.cn|http://www.juhua354442.cn||http://juhua354442.cn