喜歡聆聽音樂的愛好者,一定曾有著不知道如何選擇適合自己的音樂儲存格式煩惱過,雖然大多數人都知道未壓縮音訊格式能提供最佳的音樂品質,但是在考量儲存空間有時並不是那麼充足的情況下,為了在有限的空間中塞入更多自己喜愛的音樂,占據儲存空間較小的壓縮音樂格式就成了不錯的選擇。
▲圖片來源
這麼多不同的音樂格式到底有甚麼差別?壓縮後的音樂品質是否會受到嚴重影響?哪種儲存格最適合自己的使用習慣?這就是筆者今天要跟各位分享的主題,藉由以下的介紹,筆者希望大家能夠挑選出最適合自己的音樂儲存格式。但在介紹音樂格式之前,先讓我們來看一下在儲存裝置中的數位音樂,到底是怎麼被轉換成可以聽到聲音吧。
數位音訊的記錄和播放
如果要將儲存在 CD、手機或電腦內的音樂檔案,利用播放程式轉換成可以聆聽的音樂,就必須經過一連串的編解碼和數位類比轉換過程。由於目前大多數的音樂都是使用脈衝編碼調變〈Pulse-code modulation,縮寫:PCM〉的方式儲存,這是一種將類比訊號轉成數位量化訊號的方式,為了能夠更清楚連貫的了解音樂播放過程,筆者先簡單介紹一下音訊如何被數位化。
▲數位音訊的記錄和播示意圖,圖上半顯示將類比聲波轉換為 PCM 數位訊號的簡易流程,然後儲存於儲存媒介中,圖下半為將數位 PCM 訊號轉換為類比聲波的簡易流程。
數位音訊記錄
如果只針對音訊並且用非常淺顯的方式來說明,PCM 在將類比訊號轉換成數位訊號的過程中,主要包含三格步驟:「取樣 Sampling」、「量化 Quantization」、「編碼 Coding」。首先針對原始類比訊號進行取樣,取樣的內容主要為在每段固定時間內的振幅,如果以下圖 PCM 取樣來表示,就是在每一個固定時間內〈X 軸刻度〉記錄下當時的振幅。接下來再將上述所取得的值,轉換成離散時間訊號,最後再根據 PCM 規範,給予每一個量化後的數值一個特殊的編碼,最終的產物就成了我們常見的數位音訊。
▲Linear-PCM 示意圖,在固定時間間隔〈 X 軸〉下,記錄當下的振幅大小〈黑色點〉,圖中為一個 4-bit 的 LPCM 取樣結果,在實際錄音時會使用較高的 bit 數和更短的間隔,如 CD 品質的音樂為 16-bit〈2 的 16 次方=65536 階〉,每個間隔為 1/44100 秒。
數位音訊播放
接下來在播放端發生的事情,就是將上述記錄下來的數位音訊,利用數位類比轉換器〈Digital to analog converter,縮寫 DAC〉,將數位訊號轉換回類比訊號。這個由數位訊號回製成類比訊號的過程也就是我們常說的 D/A 轉換〈Digital to analog convert〉,而負責處理這樣過程的處理晶片,就是我們常說 DAC 晶片。
目前比較常見的 DAC 晶片大多基於 ΔΣ 類比數位轉換架構,採用脈衝密度轉換技術,在解碼的過程中會對原始的 PCM 插入過取樣〈Oversampling〉點。接下來這些插入的取樣點再與原始訊號,由多通積分電路進行比較,數值大於原始訊號的就定義為 1,小於原始訊號就定義為 0,原本的 PCM 訊號通過這插值運算後就變成只有 0 和 1 的脈衝密度調變〈Pulse-density modulation,縮寫 PDM〉訊號。然後 PDM 訊號再經過一個開關電容網路構成的低通濾波器,1 轉換為高電壓訊號,0 轉會為低電壓訊號,通過級聯積分進行階躍非線性轉換,最後就成了可以被耳機或喇叭轉換成為聲音的訊號。
但由於過取樣的離散訊號會有大量高頻能量,如果不進行處理會產生大量諧波,為了消除這些諧波並使訊號流暢,PDM 訊號往往會經過一個高通濾波器來量化高頻雜訊,再進入高頻雜訊整形〈noise shaping〉電路處理,將高頻雜訊分離到更高的頻率區段〈人耳聽不到的區段〉,然後當這些訊號通過輸出點設置的低通濾波器時,這些高頻的量化雜訊就可以被大幅衰減或移除;目前絕大多數的 DAC 都使用以上的轉換過程,不同的 DAC 有著不同的過取樣率和低通濾波器設計,理論上更高的過取樣可以降低低通濾波器的參數要求,進而達到有效降低雜訊的效果。
▲數位類比轉換器外觀,圖中為德儀 PCM5100A。
▲數位類比轉換器內部運作示意簡圖。
數位音樂儲存方式
上面提到的數位類比轉換,主要是牽涉到常見 PCM 訊號轉換成類比訊號的流程,和我們常見的音樂格式,例如 MP3、WAV 和 FLAC 到底有甚麼關係?如果就簡單的說法,上面那些檔案格式是藉由不同方式來包裝 PCM 訊號,當在播放的過程中,播放軟體必須經由解碼器將這個包裝解開,轉換回數位類比轉換過程可以識別的 PCM 訊號。
但是不同的包裝方式有著截然不同的檔案大小,所使用的編碼也不同,並且少部分編碼方式,在過程中會藉由將音訊資料捨棄,來達到降低最終檔案大小的目的。因此要了解不同檔案格式,筆者先來介紹最原始不進行壓縮的音樂儲存格式:線性脈衝代碼調變〈Linear Pulse Code Modulation,縮寫 LPCM〉。
▲各種不同音樂格式的 Logo
線性脈衝代碼調變〈LPCM〉
LPCM 又常被稱為 Uncompressed PCM,是一種不經過壓縮來儲存錄製音頻的格式,以連續線性的取樣方式來擷取類比音訊轉換成數位訊號,就是我們上一節所介紹的數位音訊的記錄過程,檔案格式在 IBM PC 中比較常以 WAV〈Waveform Audio File Format〉的格式存在,在 Macintosh 中常以 AIFF〈Audio Interchange File Format〉格式呈現。
WAV 格式是基於資源交換檔案標準〈Resource Interchange File Format,縮寫 RIFF〉檔案格式,RIFF 格式與 AIFF 和 IFF 格式類似,這類的檔案格式特點就是沒有經過任何壓縮手續,所以檔案體積比其他儲存格式來得大上不少。又由於檔案較大,所以在傳輸流量方面也是相當驚人,如果以192kHz/24bit 〈7.1ch〉音樂來說,最高理論數據流量就高達36Mbps!
這對於大部分的儲存媒介〈光碟、記憶卡〉來看,是很難承受如此巨大的流量,而且就算能夠穩定維持傳輸速度,整個影音的儲存容量也是難以接受。因此即便如藍光〈Blu-ray〉光碟這麼大容量的儲存媒介,也大多選擇將音樂規格下降到 48kHz/16bit,而且在這規格下的 5.1 聲道也已經需要 4.5Mbps 流量。
而常見的音訊 CD 格式是由飛利浦和索尼公司開發,這種格式也是單純的無壓縮儲存方式,將單首音樂存放在一個 CDDA 檔案中,輸入的採樣頻率為 44.1kHz/16bit。立體聲的資料流量為 1.4Mbps,所以一首歌歌曲擷取出來往往需要數十 MB 存放空間,為了因應減緩儲存空間的需求,對音訊進行壓縮就成為常見的手法。而音頻壓縮又分成無損壓縮和有損壓縮,在介紹常見的壓音樂格式前,我們先來看一下這兩種壓縮方式的不同處。
無損壓縮演算法
無損壓縮演算法,就其字面意思即可知,這是一種可以被完整還原成原始資料的壓縮演算法。這類型演算藉由運算邏輯,將儲存的資料由更簡化的代碼來表示,達到減少儲存空間的目標。如果以其他壓縮技術來舉例的話,這是比較近似於 ZIP 和 RAR 之類的壓縮格式,此類型壓縮演算法可以有效減少音樂訊號占用的空間,並且解碼後前後的資料完全一致,就如同壓縮一本《天龍八部》的小說文字檔,解壓縮後不會變成《射鵰英雄傳》一樣。
所以理論上對音訊數據是沒有任何影響,比較顯著的問題是解碼過程中必須消耗一部分運算能力,如果解壓裝置的運算能力不足以應付解碼需求,就有可能對即時音頻播放產生影響。此外無損壓縮的壓縮比是比不上有損壓縮,對於一些講求傳輸速率的線上串流音樂來說,這樣的壓縮比往往還是不足。比較常見的無損壓縮音訊檔案格式大多以 FLAC、APE、WavPack、TTA、WMALossless、AppleLossless 和 TAK 為主。
有損壓縮演算法
有損壓縮演算法也如同字面敘述一般,在壓縮的過程中會對原始音訊進行刪減,這種類型的刪減並不是隨意刪除音訊資料,是經由一套非常精密的聲音心理學模型下去設計。去除人類較難聆聽到的聲音,例如超越 20kHz 的聲音訊號,或是在一個高音量聲音後面的微弱聲音訊號等等。
雖然會造成音質部分下降,但是有損音訊壓縮好處就是有非常高的壓縮比,一般無損壓縮的壓縮比大約在 1:2 左右,但是有損音訊壓縮可以達到 1:12 甚至更高的壓縮比,並且還能提供相對不錯的聲音品質。這也是為何有損音訊壓縮檔案還是被廣泛使用的原因,目前比較常見的有損壓縮音訊檔案為 MP3,Windows Media Audio(WMA),Ogg Vorbis(OGG),AAC。
▲音訊有損壓縮演算模式簡圖,大多數的有損壓縮演算法除了單純壓縮音訊之外,還會利用心理聲學模型來計算等音量關係、頻域遮罩和時域遮罩來移除不易被人耳察覺的音訊。
下一頁:常見的各種音訊檔案格式