Chapter 1: Introduction / 1章 はじめに

This document describes the VP8 compressed video data format created by Google On2, together with a discussion of the decoding procedure for this format. It is intended to be used in conjunction with and as a guide to the reference decoder provided by Google On2. If there are any conflicts between this document and the reference source code, the reference source code should be considered correct. The bitstream is defined by the reference source code and not this document.
本稿はGoogle On2によって作られたVP8圧縮動画像のデータ形式について記述する.また,このデータ形式のデコード処理についても議論する.Google On2によって提供される参照デコードソフトと強調し,かつ道案内となることが意図されている.もし本稿と参照ソフトウェアのコードの間になんならの矛盾があれば,参照ソフトウェアのコードが正しいと考えるべきである.ビットストリームは参照ソフトウェアのコードによって定義されているのであって,本稿によって定義されているのではない.


Like many modern video compression schemes, VP8 is based on decomposition of frames into square subblocks of pixels, prediction of such subblocks using previously constructed blocks, and adjustment of such predictions (as well as synthesis of unpredicted blocks) using a discrete cosine transform (hereafter abbreviated as DCT). In one special case, however, VP8 uses a “Walsh-Hadamard” (hereafter abbreviated as WHT) transform instead of a DCT.
近頃の多くの動画像圧縮方式のように,VP8はフレームをピクセル群からなる正方形の小ブロックへの分解し,事前に再構築されたブロック群をもちいて小ブロックの予測し,離散コサイン変換(以下ではDCTと記述する)を用いて予測したブロック(非予測ブロックの合成も同様である)の整合性をとる,という手法を基本としている.しかしながら,ある特別な場合にVP8はウォルシュ・アダマール変換(以下ではWHTと記述する)をDCTの代わりに用いる.


Roughly speaking, such systems reduce datarate by exploiting the temporal and spatial coherence of most video signals. It is more efficient to specify the location of a visually similar portion of a prior frame than it is to specify pixel values. The frequency segregation provided by the DCT and WHT facilitate the exploitation of both spatial coherence in the original signal and the tolerance of the human visual system to moderate losses of fidelity in the reconstituted signal.
概要としては,このような仕組みは大部分の動画像信号にある時間と空間の一貫性を利用してビットレートを削減する.時間的に前のフレームにおいて視覚的に似ている部分の位置を特定することは,画素値を特定するよりも効果的である.DCTやWHTにより規定される周波数分割は,原信号の空間的な一貫性と再構成信号における忠実性の欠落を緩和するために人間の視覚システムの寛容さを利用することを促進する.


VP8 augments these basic concepts with, among other things, sophisticated usage of contextual probabilities. The result is a significant reduction in datarate at a given quality.
VP8はコンテキスト確率の洗練された活用と共にこれら基本コンセプトや他のことも改良する.その結果,指定された品質において著しくビットレートが削減される.


Unlike some similar schemes (the older MPEG formats, for example), VP8 specifies exact values for reconstructed pixels. Specifically, the specification for the DCT and WHT portions of the reconstruction does not allow for any “drift” caused by truncation of fractions. Rather, the algorithm is specified using fixedprecision integer operations exclusively. This greatly facilitates the verification of the correctness of a decoder implementation as well as avoiding difficult-to-predict visual incongruities between such implementations.
いくつかの同様な仕組み(例えば昔のMPEG形式)とは異なり,VP8は再構成画素の正確な値群を記述する.とりわけ,再構成におけるDCTとWHT部分の記述は,分数の切り捨てに起因するいかなる「ドリフト」も許容しない.より正確に言うと,このアルゴリズムは固定精度整数演算の排他的な利用により特徴付けられている.このことは,デコーダ実装の正確さの検証を促進すると共に,複数の実装における視覚的な不一致の予測困難性を排除している.


It should be remarked that, in a complete video playback system, the displayed frames may or may not be identical to the reconstructed frames. Many systems apply a final level of filtering (commonly referred to as postprocessing) to the reconstructed frames prior to viewing. Such postprocessing has no effect on the decoding and reconstruction of subsequent frames (which are predicted using the completely-specified reconstructed frames) and is beyond the scope of this document. In practice, the nature and extent of this sort of postprocessing is dependent on both the taste of the user and on the computational facilities of the playback environment.
完璧な動画像再生システムにおいて,表示されたフレームが再構成されたフレームであると同定出来るかもしれないし出来ないかもしれない,ということを強調しておく.多くのシステムは表示の前に再構成されたフレームに最終段のフィルタを適用する(一般的に事後処理として言及される).このような事後処理は後続フレーム(これらは完全に定義された再構成フレームを用いて予測される)のデコード処理と再構成処理になんら影響を与ず,本稿の対象外である.実際,この類の事後処理の本質と限界は,利用者の嗜好と再生環境の計算能力の両方に依存している.