三级黄色a,车上疯狂做爰,中国女人黄色片

視頻編解碼芯片設(shè)計(jì)原理----04 幀內(nèi)預(yù)測(cè)

本系列主要介紹視頻編解碼芯片的設(shè)計(jì)，以HEVC視頻編碼標(biāo)準(zhǔn)為基礎(chǔ)，簡(jiǎn)要介紹編解碼芯片的整體硬件架構(gòu)設(shè)計(jì)以及各核心模塊的算法優(yōu)化與硬件流水線設(shè)計(jì)。

本文首先給出了HEVC幀內(nèi)預(yù)測(cè)的相關(guān)背景知識(shí)，接著分析了VLSI實(shí)現(xiàn)RMD過(guò)程所面臨的一些限制條件并有針對(duì)地優(yōu)化了RMD算法，然后分析并總結(jié)了上述算法在VLSI實(shí)現(xiàn)時(shí)所面臨的實(shí)際問(wèn)題，并有針對(duì)地提出了對(duì)應(yīng)的VLSI結(jié)構(gòu)。

幀內(nèi)預(yù)測(cè)是視頻編碼的第一個(gè)處理過(guò)程，該過(guò)程通過(guò)對(duì)已經(jīng)編碼了的相鄰像素進(jìn)行某種預(yù)先設(shè)置的加權(quán)處理，從而得到對(duì)當(dāng)前像素塊的較佳估計(jì)，能有效地減小空間冗余度，提高壓縮效率。

1概述

HEVC中的幀內(nèi)預(yù)測(cè)引入了一些新的工具來(lái)提高編碼效率：基于四叉樹(shù)的塊結(jié)構(gòu)劃分、自適應(yīng)的參考像素濾波、包含33個(gè)方向的Angular預(yù)測(cè)、適用于平滑紋理的Planar預(yù)測(cè)等。

塊劃分

HEVC中引入四叉樹(shù)劃分提供了更靈活的塊劃分結(jié)構(gòu)，標(biāo)準(zhǔn)將“當(dāng)前像素塊”稱為預(yù)測(cè)單元（PU）。當(dāng)最大編碼單元（LCU）的大小是64×64時(shí)，幀內(nèi)PU的大小可以是以下任意五種：4×4、8×8、16×16、32×32和64×64。

下圖1給出了一種可能的PU劃分方式。

圖1

參考像素管理

HEVC中，幀內(nèi)預(yù)測(cè)所參考的像素，除了類(lèi)似于H.264/AVC中當(dāng)前預(yù)測(cè)塊上、左邊、上方、右上的像素，還增加了左下的像素，如下圖2所示。

圖2

另外，對(duì)參考像素還增加了填充、濾波、投影處理。填充過(guò)程是為了保證之后各個(gè)圖像塊預(yù)測(cè)過(guò)程的統(tǒng)一性，使參考像素的有無(wú)不會(huì)改變具體的預(yù)測(cè)過(guò)程。濾波過(guò)程是采用三抽頭濾波器（[1 2 1]/4）對(duì)大于4×4的亮度塊的參考像素進(jìn)行濾波，并且HEVC可以根據(jù)塊大小以及預(yù)測(cè)模式而選擇性地對(duì)參考像素進(jìn)行濾波，有效減輕了由于邊界效應(yīng)帶來(lái)的輪廓偽像。投影處理是把二維的參考像素映射為一維形式，顯著降低了預(yù)測(cè)的復(fù)雜度。

預(yù)測(cè)模式

在HEVC 標(biāo)準(zhǔn)中，“預(yù)先設(shè)置的加權(quán)處理”被稱之為“預(yù)測(cè)模式”，包含了Planar、DC和33 種角度預(yù)測(cè)模式，以確保在各種允許的塊大小的預(yù)測(cè)過(guò)程中，能更精確地表明當(dāng)前塊的紋理狀況，確保預(yù)測(cè)的準(zhǔn)確性，具體的預(yù)測(cè)模式如下圖3所示。

圖3

Planar 模式適用于相對(duì)平滑的PU，其預(yù)測(cè)像素為水平預(yù)測(cè)值和豎直預(yù)測(cè)值的線性平均。DC模式則用求平均的方式以單一值對(duì)整個(gè)像素塊進(jìn)行預(yù)測(cè)。HEVC 幀內(nèi)預(yù)測(cè)中的Angular 模式是針對(duì)圖像紋理的方向性預(yù)測(cè)，而預(yù)測(cè)方向的數(shù)目和角度則是權(quán)衡了編碼復(fù)雜度和編碼效率之后得到的一個(gè)折衷值。

2算法優(yōu)化

HEVC采用RMD和MPM以加速判決過(guò)程，兩者大大減輕了RDO的復(fù)雜度，然而，RMD仍然需要在5層四叉樹(shù)中遍歷35種預(yù)測(cè)模式，其計(jì)算量之大，難以用較低的硬件代價(jià)實(shí)時(shí)完成。對(duì)此，本文提出了以下優(yōu)化算法。

計(jì)算失真優(yōu)化

碼率失真優(yōu)化中的失真在本意上指的是重建像素和原始像素之間的差異。然而，由于重建環(huán)路的復(fù)雜度太高，我們并不能在RMD中獲取當(dāng)前塊的重建像素。所以我們將碼率失真優(yōu)化中的失真調(diào)整成了預(yù)測(cè)像素與原始像素之間的差異，并采用了SATD代價(jià)對(duì)差異進(jìn)行表征。

計(jì)算碼流的優(yōu)化

為了減少預(yù)測(cè)模式占用的碼率，HEVC標(biāo)準(zhǔn)引入了MPM（Most Possible Mode，最可能模式）的概念。但由于硬件實(shí)現(xiàn)在信息獲取上的限制，我們無(wú)法在RMD的過(guò)程中獲取相鄰PU的預(yù)測(cè)模式。但幸運(yùn)的是SATD代價(jià)也能夠體現(xiàn)殘差系數(shù)所對(duì)應(yīng)的碼率代價(jià)。事實(shí)上，相比于失真，SATD代價(jià)對(duì)于碼率的體現(xiàn)程度可能更高。因此，它被廣泛地運(yùn)用在RMD的過(guò)程中。

搜索模式的優(yōu)化

與HM推薦的遍歷算法不同，優(yōu)化后的模式搜索方法是利用步長(zhǎng)為3的層次化搜索對(duì)預(yù)測(cè)模式逐步收斂，從而得到備選集。具體而言，該搜索算法在每一輪排序后會(huì)逐漸減小搜索范圍，如下圖給出的一個(gè)具體例子。步驟1）中根據(jù)SATD值將初始列表中的角度模式進(jìn)行排序，然后在較優(yōu)模式[-2，2]的搜索范圍內(nèi)進(jìn)行搜索。步驟2）將搜索范圍縮小為[-1，1]。最后把DC和Planar模式合并到步驟3）排序后的列表中。若選用Ma策略，則直接將Planar和DC模式放在步驟3)產(chǎn)生的列表前；若選用Mb策略，則仍然搜索Planar和DC模式，按照SATD值排序。

圖4

3 VLSI實(shí)現(xiàn)

01 VLSI實(shí)現(xiàn)概述

在實(shí)際的VLSI實(shí)現(xiàn)時(shí)，以下三個(gè)問(wèn)題將會(huì)在很大程度上影響處理速度：準(zhǔn)備參考像素的延遲、準(zhǔn)備原始像素的延遲和當(dāng)前搜索步驟與下一個(gè)搜索步驟的數(shù)據(jù)依賴。

準(zhǔn)備參考像素的延遲是由不合理的存儲(chǔ)方式帶來(lái)的。在一般的實(shí)現(xiàn)中，參考像素是按照光柵的順序存放在存儲(chǔ)器中的，而這會(huì)導(dǎo)致很多問(wèn)題，比如產(chǎn)生訪問(wèn)地址的邏輯較復(fù)雜、訪問(wèn)參考像素所需的周期較多，同時(shí)還造成了存儲(chǔ)器中的空間浪費(fèi)。

原始像素不合理的儲(chǔ)存方式增加了準(zhǔn)備原始像素的延遲。雖然光柵存儲(chǔ)方式有利于像素從外存到內(nèi)存的搬運(yùn)，但對(duì)于基于塊的后續(xù)處理，這樣的存儲(chǔ)方式會(huì)大大拖慢處理速度。

層次化搜索方式會(huì)導(dǎo)致當(dāng)前搜索步驟與下一個(gè)搜索步驟產(chǎn)生數(shù)據(jù)依賴。對(duì)于每個(gè)PU來(lái)說(shuō)，都需要進(jìn)行步長(zhǎng)為3的搜索，而下一步的搜索是依賴于上一步的結(jié)果的。因此，在不進(jìn)行調(diào)度的情況下，該RMD引擎的時(shí)空?qǐng)D如下圖5所示，其中字母P代表PU，S代表搜索步驟，M代表搜索模式。

圖5

為了解決上述問(wèn)題，本文提出了如下圖6所示的VLSI架構(gòu)。其中，行列存儲(chǔ)器用于快速讀入?yún)⒖枷袼兀徊l(fā)存儲(chǔ)器用于快速讀入原始像素；預(yù)測(cè)引擎和SATD引擎分別用于執(zhí)行預(yù)測(cè)和SATD計(jì)算的任務(wù)；搜索調(diào)度器用于執(zhí)行搜索算法。

圖6

02行列存儲(chǔ)器

為了使準(zhǔn)備參考像素的延遲變得不可見(jiàn)，架構(gòu)采用了如下圖7所示的行列存儲(chǔ)器，并對(duì)其進(jìn)行了優(yōu)化。其中，行存儲(chǔ)器用來(lái)存放所有橫向排布的參考像素，即左上、上方和右上的參考像素；列像素用來(lái)存儲(chǔ)所有縱向排布的參考像素，即左上、左方和左下的參考像素。

圖7

行列存儲(chǔ)器具有諸多優(yōu)勢(shì)。首先，橫向分布和縱向分布的參考像素都分別被映射到了連續(xù)的地址中，簡(jiǎn)化了訪問(wèn)地址的產(chǎn)生。而且參考像素總是能夠以每周期4像素的吞吐率被取出或更新，減少了訪問(wèn)的延遲。所有地址空間都存儲(chǔ)了有意義的數(shù)據(jù)，消除了對(duì)于存儲(chǔ)空間的浪費(fèi)。最后，合理的存儲(chǔ)方式也大大減少了訪問(wèn)所引入的功耗。

03并發(fā)存儲(chǔ)器

為了使準(zhǔn)備原始像素的延遲變得不可見(jiàn)，本文提出了如下圖8所示的并發(fā)存儲(chǔ)器。

圖8

并發(fā)方式在增加少量功耗的代價(jià)下，大大提高了對(duì)于小塊PU的訪問(wèn)速度，使得準(zhǔn)備原始像素的時(shí)間對(duì)RMD引擎而言變得不可見(jiàn)。

04預(yù)測(cè)引擎

預(yù)測(cè)模式中的33種Angular模式本身具有共性，易于復(fù)用實(shí)現(xiàn)，而Angular、DC、Planar三種模式之間幾乎沒(méi)有什么相似性，所以整個(gè)預(yù)測(cè)引擎可以看成有三條預(yù)測(cè)的數(shù)據(jù)通路，如下圖所示，分別代表Angular、DC、Planar三種預(yù)測(cè)模式，最后的輸出結(jié)果會(huì)根據(jù)配置信號(hào)模式進(jìn)行選擇。

圖9

整個(gè)預(yù)測(cè)引擎的輸入信號(hào)是讀入的參考像素，以及所有的配置信號(hào)，三條具體預(yù)測(cè)的數(shù)據(jù)通路則采用三級(jí)全流水的結(jié)構(gòu)實(shí)現(xiàn)。因?yàn)椴捎萌魉慕Y(jié)構(gòu)，這樣對(duì)于一個(gè)TU內(nèi)的所有4×4塊，因?yàn)槠渲g相互不存在數(shù)據(jù)相關(guān)性，所以可以流水線地完成幀內(nèi)預(yù)測(cè)過(guò)程。

05搜索調(diào)度器

為了使當(dāng)前搜索步驟與下一個(gè)搜索步驟間的數(shù)據(jù)依賴變得不可見(jiàn)，需要使用到“模式調(diào)度器”，其主要功能是將對(duì)于當(dāng)前PU和下一個(gè)PU的搜索進(jìn)行交織運(yùn)作，如下圖10所示。該調(diào)度器中集成了兩組模式存儲(chǔ)器及其對(duì)應(yīng)的代價(jià)存儲(chǔ)器，分別用于存儲(chǔ)當(dāng)前PU和下一個(gè)PU經(jīng)排序后的模式列表及其對(duì)應(yīng)的代價(jià)。

圖10

06性能評(píng)估

我們選用HM作為參考對(duì)象，將優(yōu)化算法移植到了HM-15.0版本中測(cè)試了若干標(biāo)準(zhǔn)序列，采用的配置為默認(rèn)配置。下表1給出了本算法和及相關(guān)算法的B-D rate性能。

表1

	X.Yu[1]	J.Zhu[2]	K.Miyazawa[3]	Ours
最小二輸入與非門(mén)個(gè)數(shù) (K)	/	214.1	/	184.0
工作頻率 (MHz)	/	357	/	500
BD Rate 增量 (%)	3.39	4.53	3	0.5

參考文獻(xiàn)

[1] X. Yu, Z. Liu, J. Liu, Y. Gao and D.Wang.VLSI friendly fast CU/PU mode decision for HEVC intra encoding: Leveragingconvolution neural network[A].IEEE International Conference on ImageProcessing[C].IEEE, 2015:1285-1289.

[2] J. Zhu, Z. Liu, D. Wang, Q. Han and Y.Song.HDTV1080p HEVC Intra encoder with source texture based CU/PU modepre-decision[A].19th Asia and South Pacific Design AutomationConference[C].IEEE, 2014:367-372.

[3] K. Miyazawa et al.Real-time hardwareimplementation of HEVC video encoder for 1080p HD video[A].Picture CodingSymposium[C].IEEE, 2013:225-228.