Back to site

ATRAC: Адаптыўнай пераўтварэнне акустычнай кадавання для міні-дыскаў

Kyoya Цуцуи
Hiroshi Suzuki
Асаму Shimoyoshi
Mito Sonohara
Kenzo Akagiri
Роберт М. Хедлі

Sony Corporate Research Laboratories
1935/07/06 Kitashinagawa, Shinagawa-ку, Токіо Японія 141

Друкуецца па тэксце 93 - Audio Engineering Society канвенцыі ў Сан-Францыска, 1992 1-4 кастрычніка

Анатацыя

ATRAC з'яўляецца кадавання гуку сістэма, заснаваная на психоакустической прынцыпаў. Уваходнага сігналу дзеліцца на тры падзоны, якія затым ператвараюцца ў частотнай вобласці з выкарыстаннем зменнай даўжыні блока. Каэфіцыентаў пераўтварэнні згрупаваныя ў неаднароднай паласы з улікам чалавечай слыхавы сістэмы, а затым квантованного на аснове дынамічнай адчувальнасці і маскіруючыя ўласцівасці. ATRAC сціскае кампактнага аўдыё-дыск прыкладна 1 / 5 ад арыгінальнага хуткасць перадачы даных практычна без страты якасці гуку.

1 Уводзіны

У апошні час назіраецца павелічэнне спажывецкага попыту на партатыўныя запісваем высакаякасных лічбавых аўдыёфайлаў. MiniDisc сістэмы быў распрацаваны для задавальнення гэтага попыту. MiniDisc заснаваны на 64 мм аптычны або магнітааптычных дыск, які мае прыкладна 1 / 5 ад ёмістасці для захоўвання дадзеных з стандартнага кампакт-дыска. Нягледзячы на зніжэнне ёмістасці, неабходна было, каб MiniDisc падтрымліваць высокую якасць гуку і час прайгравання 74 хвілін. ATRAC (адаптыўнай пераўтварэнне акустычнай Coding) сістэмы сціску дадзеных быў для іх прызначаныя для задавальнення наступных крытэраў: Пры выкарыстанні лічбавага аўдыё дадзеныя сціскаюцца, то, як правіла, вызначаная колькасць шумоў квантавання ўводзіцца ў сігнал. Мэтай шматлікіх сістэм кадавання аўдыё [1-6] з'яўляецца кантроль часу частотнае размеркаванне гэтага шуму такім чынам, каб яна нячутна для чалавечага вуха. Калі гэта цалкам паспяхова, адноўлены сігнал будзе немагчыма адрозніць ад арыгінала.

Увогуле, аўдыё кодэры працуюць шляхам раскладання сігналу на мноства адзінак, кожная з якіх адпавядае пэўны інтэрвал часу і частаты. З дапамогай гэтага размеркавання часу-частоты, сігнал аналізуецца ў адпаведнасці з психоакустической прынцыпаў. Гэты аналіз паказвае, якія адзінкі з'яўляюцца крытычнымі і павінны быць закадзіраваны з высокай дакладнасцю, і якія адзінак менш адчувальныя і могуць трываць некаторыя шумоў квантавання без пагаршэння ўспрыманага якасці гуку. Грунтуючыся на гэтай інфармацыі, даступныя біты выдзяляюцца на частотна-часовай адзінкі. Спектральных каэфіцыентаў у кожным падраздзяленні затым квантованного выкарыстаннем выдзяляюцца біт. У дэкодэр, квантованных спектры рэканструяваны ў адпаведнасці з размеркаваннем біт, а затым сінтэзуецца ў гукавы сігнал.

Сістэмы ATRAC працуе, як і вышэй, з некаторымі паляпшэннямі. ATRAC выкарыстоўвае психоакустики не толькі ў алгарытм размеркавання біт, але і ў расшчапленні частотна-часовай. Выкарыстоўваючы спалучэнне падзоны кадавання і кадавання з пераўтварэннем метадаў, уваходны сігнал аналізуецца ў неаднародных падраздзяленняў частата якіх падкрэсліваецца важнае рэгіёнаў нізкіх частот. Акрамя таго, ATRAC выкарыстоўваецца пераўтварэнне даўжыні блока які адаптуецца да ўваходнага сігналу. Гэта забяспечвае эфектыўнае кадаваньне стацыянарных урыўкаў без шкоды для часовага дазволу на працягу пераходнага праходы.

Гэты артыкул пачынаецца з агляду адпаведных психоакустической прынцыпаў. Кодэра ATRAC затым апісаць у тэрмінах часу Расшчапленне частот, квантавання спектральных каэфіцыентаў, і трохі размеркавання. Нарэшце, дэкодэр ATRAC апісана.

2 психоакустики

2,1 Equi-гучнасць Крывыя

Адчувальнасць вуха залежыць ад частаты. Вуха найбольш адчувальная да частот у наваколлі 4 кГц; ўзроўні гукавога ціску, якія проста выявіць у 4 кГц не выяўляюцца на іншых частотах. Увогуле, два тоны роўнай магутнасці, але розныя частоты не будзе гучаць аднолькава гучна. Ўспрымаецца гучнасць гуку можа быць выяўлена ў Сонс, дзе 1 Соне вызначаецца як гучнасцю 40 дб тоны частатой 1 кГц. Equi-гучнасці крывыя на некалькіх узроўнях гучнасці паказаны на малюнку 1. Крывы надпісам "парог чутнасці ў ціхім" паказвае на мінімальны ўзровень (па азначэнні, 0 Соне), пры якім вуха можа выявіць тон на дадзенай частаце.

Гэтыя крывыя паказваюць, што вуха з'яўляецца больш адчувальнай на некаторых частотах, чым у іншых. Скажэнні ў рэгістр частоты будзе менш чутны, чым у адчувальных частот.

2,2 Маскіроўка

Маскіроўка [7] адбываецца, калі адзін гук аказваецца чуваць іншым. Адначасовая маскіроўка адбываецца, калі два гуку адбываецца ў той жа час, напрыклад, калі гутарка (у масках сігналу) прадастаўляецца неразборліва ад праходзіць цягніка (перашкода). Зваротная маскіроўка адбываецца, калі масках сігналу заканчваецца да перашкода пачынаецца; наперад маскіроўка адбываецца, калі масках сігналу пачынаецца пасля перашкода скончылася.

Маскіроўка становіцца мацней, як два гуку атрымаць бліжэй адзін да аднаго ў часе і частаты. Напрыклад, адначасовае маскіроўкі мацней наперад або назад маскіроўкі, паколькі гукі адбываюцца ў той жа час. Маскіроўка эксперыменты, як правіла, выконваецца з дапамогай вузкай паласы белага шуму ў якасці маскіруючыя сігналу, і вымярэння толькі-гукавы ўзровень чыстага тону ў розныя моманты часу і частаты. Прыклады адначасовай маскіроўкі і часовай маскіроўкі паказаны на малюнку 2 і на малюнку 3 адпаведна.

Важныя высновы можна зрабіць з гэтых графікаў. Па-першае, адначасовае маскіроўка больш эфектыўным, калі частата масках сігнал роўны або вышэй, чым перашкода. Па-другое, у той час як наперад маскіроўкі з'яўляецца эфектыўным на працягу значнага часу пасля перашкода спыніўся, таму маскіроўкі можа быць эфектыўнай толькі ў менш чым за 2 ці 3 мс да пачатку перашкода.

2,3 крытычных груп

Крытычныя паласы [7] паўстала з таго, што вуха аналіз чутным дыяпазону частот з дапамогай набору падзоны. Частот у крытычнай паласы аналагічныя з пункту гледжання ўспрымання вухам, і апрацоўваюцца асобна ад іншых крытычных зонах. Крытычныя паласы натуральна паўсталі з эксперыментаў у чалавечы слых, а таксама можа быць атрымана з размеркавання сэнсарных клетак ва ўнутраным вуху. Крытычныя палосы можна разглядаць як шкале частот выкарыстоўваецца вуха [8].

Крытычных маштабаў група прадстаўлена ў табліцы 1. Ясна, што крытычнай паласы значна ўжо на больш нізкіх частотах, чым на высокіх частотах, на самай справе, тры чвэрці крытычнай паласы размешчаны ніжэй за 5 кГц. Гэта азначае, што вуха атрымлівае больш інфармацыі ад нізкіх частот і менш ад больш высокіх частот.

Table 1: Discrete critical bands [7]
Critical
Band
Frequency (Hz) Critical
Band
Frequency (Hz)
LowHighWidth LowHighWidth
0 0 100 100 13 2000 2320 320
1 100 200 100 14 2320 2700 380
2 200 300 100 15 2700 3150 450
3 300 400 100 16 3150 3700 550
4 400 510 110 17 3700 4400 700
5 510 630 120 18 4400 5300 900
6 630 770 140 19 5300 6400 1100
7 770 920 150 20 6400 7700 1300
8 920 1080 160 21 7700 9500 1800
9 1080 1270 190 22 9500 12000 2500
10 1270 1480 210 23 12000 15500 3500
11 1480 1720 240 24 15500 22050 6550
12 1720 2000 280

3 ATRAC Encoder

Блок-схема кодэра структура паказана на малюнку 4. Кодэра складаецца з трох кампанентаў. Блок аналізу разбівае сігнал у спектральных каэфіцыентаў згрупаваныя ў блок плавае адзінкі (BFU's). Блок размеркавання бітаў дзеліць даступныя біты паміж BFU's, вылучаючы менш бітаў рэгістра адзінак. Квантавання блок квант кожны спектральны каэфіцыент на ўказаны разраднасці.

3,1 частотна-часовай аналіз

Гэты блок (мал. 6) спараджае BFU ў тры этапы, спалучаючы метады з падзоны кадавання і кадавання з пераўтварэннем. Па-першае, сігнал разбіваецца на тры падзоны: 0-5.5 кГц, 5.5-11 кГц і 11-22 кГц. Кожны з гэтых падзонах затым пераўтворыцца ў частотнай вобласці, вырабляючы мноства спектральных каэфіцыентаў. Нарэшце, гэтыя спектральныя каэфіцыенты групуюцца нераўнамерна ў BFU's.

Падзоны раскладання ажыццяўляецца з выкарыстаннем квадратурнай Зеркало Фільтры (сук's) [0-10]. Уваходнага сігналу падзелены на верхні і ніжні дыяпазоны частот па першай сук, а ніжняя паласа частот дзеліцца зноў другі сук. Выкарыстаньне сук гарантуе, што ў часовай вобласці накладання выкліканых падзоны раскладанне будзе адменены падчас рэканструкцыі.

Кожная з трох падзоны затым пераўтворыцца ў частотнай вобласці з выкарыстаннем мадыфікаванага дыскрэтнай косінус пераўтварэння (МСКТ) [11/12]. MDCT дазваляе да 50% перакрыццем паміж часовай вобласці вокны, што прыводзіць да паляпшэння дазволу па частаце пры захаванні крытычнага адбору пробаў. Замест фіксаванай пераўтварэнні даўжыні блока, аднак, ATRAC выбірае даўжыні блока адаптыўнай на аснове характарыстык сігналу ў кожным дыяпазоне. Ёсць два рэжыму: рэжым доўга (11,6 мс) і рэжыме кароткага (1,45 мс у высокім дыяпазоне частот, 2,9 мс у іншыя). Звычайна доўга рэжым выкарыстоўваецца, каб забяспечыць добрае дазвол па частаце. Тым не менш, могуць узнікнуць праблемы падчас атакі часткі сігналу. У прыватнасці, шумоў квантавання распаўсюджваецца на ўвесь блок сігналу, а пачатковая шумоў квантавання не маскіруецца (мал. 8а), гэтая задача называецца пре-рэха. У мэтах прадухілення апераджальнага рэха-сігналу, ATRAC перамыкаецца ў рэжыме кароткага (мал. 8, б) пры выяўленні нападу сігналу. У гэтым выпадку, таму што ёсць толькі кароткі адрэзак шуму, перш чым атакаваць, шуму будзе замаскіраваная зваротнай маскіроўкі (раздзел 2,2). Зваротная маскіроўкі не з'яўляецца эфектыўным для Long Mode з-за яго вельмі кароткі тэрмін. Такім чынам, ATRAC дасягае эфектыўнага кадавання ў стацыянарных рэгіёнаў у той час як хутка рэагаваць на пераходных пераходах.

Звярніце ўвагу, што рэжыме кароткага не з'яўляецца неабходным для спаду сігналу, так як шум квантавання будзе маскіравацца наперад маскіроўкі, якая доўжыцца значна даўжэй, чым зваротнай маскіроўкі. Для забеспячэння максімальнай гнуткасці, рэжым памер блока можа быць выбраны незалежна для кожнага дыяпазону.

MDCT спектральных каэфіцыентаў затым групуюцца ў BFU's. Кожны блок змяшчае фіксаваны лік каэфіцыентаў. У выпадку працяглага рэжыму, адзінак адлюстроўваюць 11,6 мс вузкай паласе частот, а ў выпадку кароткага рэжыму, кожны блок адлюстроўвае больш кароткія тэрміны, але больш шырокай паласе частот (мал. 9). Звярніце ўвагу, што канцэнтрацыя BFU ўсё роўна больш на нізкіх частотах, чым на высокіх частотах, што адлюстроўвае психоакустической характарыстыкі чалавечага вуха.

3,2 Спектральны квантавання

Спектральныя значэння квантованного з дапамогай двух параметраў: разраднасці і каэфіцыент маштабавання. Маштабны фактар вызначае поўны дыяпазон квантавання і разраднасці вызначае дакладнасць у межах такога маштабу. Кожны BFU мае тую ж даўжыню словы і маштабны фактар, які адлюстроўвае психоакустической падабенства згрупаваных частот.

Маштабнага фактару выбіраецца з фіксаванага спісу магчымасцяў, і адлюстроўвае велічыню спектральных каэфіцыентаў у кожнай BFU. Разраднасці вызначаецца алгарытм размеркавання бітаў (раздзел 3,3).

Для кожнага кадра гук (што адпавядае 512 кропак ўваходу), наступная інфармацыя захоўваецца ў дыск:

У мэтах забеспячэння дакладнага аднаўлення уваходнага сігналу, крытычна важных дадзеных, такіх як рэжым памер блока, разраднасці і маштаб дадзеных фактараў можа захоўвацца залішне. Інфармацыя аб колькасці залішніх дадзеных таксама захоўваецца на дыску.

3,3 размеркавання бітаў

Алгарытм размеркавання бітаў дзеліць даступныя біты дадзеных паміж рознымі BFU's. Аб'екты з вялікай колькасцю біт будзе мала шумоў квантавання; адзінак з мала або зусім няма біт будзе мець значнае колькасць шуму. Для добрага якасці гуку, алгарытм размеркавання бітаў павінны забяспечыць, каб адказныя вузлы маюць дастаткова біт, і што шум у некрытычных адзінак ўспрымання не значным.

ATRAC не вызначае алгарытм размеркавання бітаў; любы адпаведны алгарытм можа быць выкарыстаны. Разраднасці кожнага BFU захоўваецца на міні-дыскаў разам з квантованной спектры, таму дэкодэр з'яўляецца цалкам незалежным ад алгарытму размеркавання. Гэта прадугледжвае эвалюцыйнае ўдасканаленне кодэра без змены фармату MiniDisc або дэкодэр.

Ёсць шмат магчымых алгарытмаў, пачынаючы ад вельмі простых да надзвычай складаных. Для партатыўных рэкордэр MiniDisc, аднак, магчымасці абмежаваныя некалькі тым, што яны павінны быць рэалізаваны на недарагіх маламагутных кампактных апаратных сродкаў. Тым не менш, ATRAC здольная добрае якасць гуку нават выкарыстанне простага алгарытму размеркавання трохі, калі гэта абгрунтавана на аснове психоакустической прынцыпаў. неаднародным адаптыўнай структурай ATRAC час-частата ўжо на аснове психоакустики, пазбаўляючы ціск на алгарытм размеркавання біт.

One suggested algorithm uses a combination of fixed and variable bits. The fixed bits emphasize the important low-frequency regions, allocating fewer bits to the BFU's in higher frequencies. The variable bits are allocated according to the logarithm of the spectral coefficients within each BFU. The total bit allocation btot is the weighted sum of the fixed bits bfix(k) and the variable bits bvar(k). Thus, for each BFU k,

btot(k) = Tbvar + (1-T)bfix

The weight T is a measure of the tonality of the signal, taking a value close to 1 for pure tones, and close to 0 for white noise. This means that the proportion of fixed and variable bits is itself variable. Thus, for pure tones, the available bits will be concentrated in a small number of BFU's. For more noise-like signals, the algorithm will emphasize the fixed bits in order to reduce the number of bits allocated to the insensitive high frequencies.

Дадзенае раўнанне не звязаная з агульнай хуткасцю перадачы, і ў цэлым выдзеліць больш біт, чым наяўныя. У мэтах забеспячэння фіксаванай хуткасцю перадачы дадзеных, зрушэнне B ВЫКЛ (аднолькавым для ўсіх BFU's) разлічваецца. Гэтая велічыня адымаецца з б малыш (к) для кожнай адзінкі, даючы канчатковага б размеркавання біт (K):

б (да) = цэлы лік малыш (да)-B з}

Калі аднімання генеруе адмоўныя разраднасці, што BFU вылучаецца 0 біт. Гэты алгарытм паказаны на малюнку 10.

4 ATRAC дэкодэр

Блок-схема дэкодэра структура паказана на малюнку 5. Дэкодэр першы рэканструюе MDCT спектральных каэфіцыентаў ад квантованного значэння, з выкарыстаннем разраднасці і маштабу параметраў фактар. Гэтыя спектральныя каэфіцыенты затым выкарыстоўваецца для аднаўлення арыгінальнай гукавой сігнал (мал. 7). Каэфіцыенты першай трансфармуецца назад у дамене часу на зваротнай MDCT (IMDCT) з выкарыстаннем альбо працяглым рэжыме або рэжыме кароткага, як паказана ў параметрах. Нарэшце, тры разы-дамен сігналы сінтэзуюцца ў выходны сігнал з дапамогай фільтраў сук сінтэзу.

5 Высновы

Дзякуючы спалучэнню розных метадаў, уключаючы психоакустики, падзоны кадавання і кадавання з пераўтварэннем, ATRAC ўдаецца кадавання лічбавага гуку практычна без ўспрымання пагаршэнне якасці гуку. Слухаюць тэсты паказваюць, што розніца паміж ATRAC гук і арыгінальны крыніца не ўспрымання раздражняе і не паменшыць якасць гуку. Акрамя таго, сістэма дастаткова кампактная для ўстаноўкі ў партатыўныя спажывецкія тавары. Выкарыстаньне ATRAC, MiniDisc забяспечвае практычнае рашэнне для партатыўнай лічбавай аўдыё.

6 Спасылкі

  1. MPEG / AUDIO CA11172-3, 1992.

  2. "АСПЭК (Крыніца: & T Bell Labs і інш інш. AT)" Док. Колькасць 89/205, ISO-IEC JTC1/SC2/WG8 MPEG-AUDIO, 18 кастрычніка 1989.

  3. Р. Veldhuis, М. Breeuwer і Р. ван дэр сцены, "падзоны кадавання лічбавых аўдыё сігналаў без страты якасці", Тр. 1989 Міжнародная канферэнцыя па акустыцы, прамовы і апрацоўкі сігналаў, Глазга, стар 2009-2012.

  4. А. Сугіяма, Ф. Hazu, М. Iwadare і Т. Nishitani, "Адаптыўнай кадаваньне з пераўтварэннем адаптыўнай памер блока (ATCABS)", Тр. 1990 Міжнародная канферэнцыя па акустыцы, прамовы і апрацоўкі сігналаў, Альбукерке, стар 1093-1096.

  5. G. Davidson, Л. Филдер і М. Антилл, "высокай якасці аўдыё кадавання з пераўтварэннем ў 128 кбіт / с," Proc. 1990 Міжнародная канферэнцыя па акустыцы, прамовы і апрацоўкі сігналаў, Альбукерке, стар 1117-1120.

  6. Г. Давидона, Л. Филдер і М. Антилл, "нізкай складанасці пераўтварэнні кодэра для прыкладанняў, спадарожнікавая сувязь," Audio Engineering Society восемдзесят дзевятым Канвенцыі прэпрынтаў 2966, верасень 1990 года.

  7. JS Тобіас, рэд., Асновы сучаснай тэорыі Слыхавыя, Vol. 1, М., "Нью-Ёрк, 1970.

  8. Е. Зуикер і UT Зуикер, "Audio Engineering і психоакустики: сігналы на канчатковы прыёмнік, чалавечага слыхавога апарата. Запыт" J. Аўдыё грамадства інжынерыя, Vol. 1939 № 3, стр. 115-126, сакавік 1991 года.

  9. Д. Эстабан, і С. Галан, "Прымяненне фільтраў люстэрка квадратурнай падзяліць групу голас схемы кадавання", Тр. 1977 IEEE Міжнароднай канферэнцыі па акустыцы, прамовы і апрацоўкі сігналаў, Хартфард CT, стар 191-195.

  10. PP Vaidyanathan, "квадратурнай люстэрка банкаў фільтраў, М-паласы пашырэння і рэканструкцыі здзейсненага метады", IEEE ASSP Magazine, Vol. 4, стр. 4-20 ліпеня 1987 года.

  11. Дж. Princen і А. Брэдлі. "Аналіз / сінтэз фільтраў група, заснаваная на вобласць накладання адмены часу", IEEE Trans. Акустыка, прамовы і апрацоўкі сігналаў, Vol. 34, стр. 1153-1161, 1986.

  12. Дж. Princen, А. Джонсан і А. Брэдлі, "падзоны / кадаваньня з пераўтварэннем выкарыстаннем фільтра групы канструкцый на аснове часовай вобласці накладання адмены", Тр. 1987 IEEE Міжнародная канферэнцыя па акустыцы, прамовы і апрацоўкі сігналаў, Далас, стар 2161-2164.
Popular Links
Published (Last edited): May 17 , source: http://www.minidisc.org/aes_atrac.html