Mascheramento

Da "Fisica, onde Musica": un sito web su fisica delle onde e del suono, acustica degli strumenti musicali, scale musicali, armonia e musica.

Percezione e compressione dei dati

La psicoacustica è la scienza che si occupa del suono percepito, anziché del suono fisico. Oltre all'interesse che essa riveste per le ricerche pure nel campo della fisiologia e la psicologia della percezione, questa scienza è particolarmente attuale nella nostra epoca, in cui la riproduzione, la trasmissione e la manipolazione dei suoni per via elettronica sono divenute una realtà che permea sempre maggiori porzioni della nostra vita.

È necessario rendersi conto che l'informazione sonora è estremamente ingombrante. Proviamo a farcene un'idea con un esempio:

oggetto codifica dimensione dell'informazione
Un grosso libro di 5 milioni di caratteri (all'incirca delle dimensioni della Bibbia) ASCII (formato solo testo 1 byte per carattere) 5000000 byte
(circa 4.8 MB)
Una grande fotografia a colori, diciamo di 1280x1024 pixel risoluzione di 16 milioni di colori (cioè 24 bit per pixel) 3932160 byte
(circa 3.75 MB)
1 minuto di musica per non sopprimere nessun suono percepibile dobbiamo campionare a 44.1 kHz, in stereofonia, e con una gamma dinamica di almeno 16 bit per campione. 10584000 byte
(circa 10 MB)

Naturalmente è possibile comprimere l'informazione perdendo qualità, e questo è esattamente ciò che avviene nella maggioranza dei casi. Ecco una tabella con i parametri di qualità indicativi propri di alcuni mezzi di comunicazione audio. Si noti in particolare il caso del telefono, la cui larghezza di banda è giusto sufficiente a trasmettere con ragionevole intelligibilità la voce, ma del tutto inadeguata alla trasmissione di musica. La voce infatti resta intelligibile, anche se distorta, se si preserva la regione di spettro in cui cadono le formanti, che si trova entro i 5 kHz.

mezzo frequenza di campionamento (kHz) bit per campione (bit) velocità di trasmissione dell'informazione (kB/s) dimensione dell'informazione in 1 minuto di musica
telefono 8 8 (mono) 8 480 kB
Radio AM 11.025 8 (mono) 11 660 kB
Radio FM 22.050 16 (stereo) 88.2 5.3 MB
CD 44.1 16 (stereo) 176 10.6 MB

Si vede dunque che è cruciale sviluppare tecniche di codifica che permettano di comprimere l'informazione, riducendo lo spazio da essa occupato, ma senza possibilmente perdere la qualità del suono. Algoritmi di compressione come lo ZIP sono estremamente efficienti nel comprimere file di testo, e sono algoritmi senza perdita di informazione: il file originale può essere interamente ripristinato invertendo l'algoritmo. Lo zip tuttavia non funziona bene sui file audio.

A questo punto interviene la psicoacustica.

L'idea è sostanzialmente che se, in un segnale audio, riusciamo ad individuare le componenti meno percepibili, possiamo semplicemente eliminarle dal segnale, diminuendo la dimensione del file corrispondente senza che il segnale perda apparentemente qualità. Così è nato il popolare formato MP3.

Ma, attenzione: avrete notato che l'algoritmo prevede esplicitamente che il segnale compresso, questa volta, perda informazione. Una volta individuate ed eliminate le componenti psicoacustiche irrilevanti, infatti, esse spariscono dal file, e non c'è modo di recuperarle. Questo spiega perché non sia consigliabile applicare due volte di seguito la compressione MP3, oppure decomprimere e ricomprimere, ovvero, perché una compressione di livello 6 non sia equivalente a due compressioni di livello 3. A questo proposito bisogna ricordare comunque che esistono anche formati di compressione audio senza perdita di informazione, come il FLAC. Essi, però raggiungono indici di compressione minori rispetto a MP3.

Ecco un esempio di uno stesso brano (Toccata da la Favola d'Orfeo di C. Monteverdi) compresso a livelli sempre maggiori. L'originale occupa 1.6 MB in formato WAV, qualità CD, e 916 kB in formato FLAC (compresso senza perdita di informazione). Noterete che, al di sotto dei 128 kbit/s, la compressione MP3 diviene così spinta da provocare, effettivamente, il degrado della qualità sonora del campione.

campionamento
bit rate
dimensione
Audio sonogramma (NB: la scala delle frequenze cambia)
44.1 kHz (stereo)
256 kbit/s
300 kB
Speaker.png

AUDIO: clicca qui per ascoltare

orfeo-256.mp3

256 kb/s

Spettro orfeo-256.png
44.1 kHz (stereo)
128 kbit/s
150 kB
Speaker.png

AUDIO: clicca qui per ascoltare

orfeo-128.mp3

128 kb/s

Spettro orfeo-128.png
24 kHz (stereo)
64 kbit/s
75 kB
Speaker.png

AUDIO: clicca qui per ascoltare

orfeo-64.mp3

64 kb/s

Spettro orfeo-64.png
16 kHz (stereo)
32 kbit/s
38 kB
Speaker.png

AUDIO: clicca qui per ascoltare

orfeo-32.mp3

32 kb/s

Spettro orfeo-32.png
8 kHz (stereo)
16 kbit/s
19 kB
Speaker.png

AUDIO: clicca qui per ascoltare

orfeo-16.mp3

16 kb/s

Spettro orfeo-16.png
8 kHz (mono)
8 kbit/s
9.3 kB
Speaker.png

AUDIO: clicca qui per ascoltare

orfeo-8.mp3

8 kb/s

Spettro orfeo-8.png

La psicoacustica, attraverso il concetto delle bande critiche, ci permette di comprendere e sfruttare a nostro vantaggio il principale responsabile dell'ottima efficienza di compressione dell'MP3: il mascheramento.

Il Mascheramento

In molte pagine della sezione di fisica delle onde abbiamo sottolineato l'importanza del principio di sovrapposizione, e l'abbiamo applicato a casi di studio. Abbiamo insistito sul fatto che si tratta di un'utilissima ipotesi di lavoro, un'approssimazione molto importante sia perché essa si applica egregiamente a molte situazioni sperimentali, sia perché il suo utilizzo dischiude le porte ad una vasta serie di risultati e tecniche matematiche di capitale importanza per la fisica tutta, e in particolare per la fisica ondulatoria.

Nel caso dei suoni potremmo così riassumere il principio:

in un punto dello spazio in cui giungono due suoni simultanei, il suono risultante è dato dalla la somma (algebrica) dei due suoni incidenti.

Il principio è molto intuitivo, almeno per suoni non troppo intensi, perché sappiamo che il suono altro non è che una piccola variazione di pressione, e quindi è naturale che due variazioni di pressione simultanee in un punto determinino una variazione di pressione data dalla somma delle due. Il bello del principio di sovrapposizione è che si può adoperarlo anche "a ritroso": dato un suono lo si può scomporre in somma di più suoni elementari. L'analisi di Fourier, ad esempio, fa grande uso di questa proprietà.

Il nostro orecchio, in un certo senso esegue proprio un'analisi di spettro dei suoni che riceve (il meccanismo è illustrato in fisiologia del sistema uditivo. Possiamo chiederci dunque:

dato un suono che è la somma di due suoni componenti, il nostro orecchio saprà sempre scomporlo e distinguerne le componenti?

La risposta è negativa in molti casi. Per esempio:

  1. quando due suoni simultanei hanno altezze molto simili (si veda battimenti).
  2. quando uno dei due suoni è parecchio più forte dell'altro (mascheramento simultaneo).
  3. quando un suono molto forte precede di poco un suono più debole (mascheramento temporale in avanti)
  4. quando un suono molto forte segue di poco un suono più debole (mascheramento temporale all'indietro)

In tutti questi casi si ha una forma di mascheramento. L'orecchio, a causa della sua struttura, non riesce a scomporre il suono globale ricevuto nelle sue componenti fisiche, e ne percepisce una sola (come nei casi 2, 3, e 4), oppure percepisce un suono di caratteristiche completamente differenti (come avviene nel caso dei battimenti). L'origine del fenomeno si spiega studiando la fisiologia del sistema uditivo, e, in particolare tramite il concetto delle bande critiche. Nel seguito ne forniamo diversi esempi.

Mascheramento simultaneo

L'esperienza comune ci dice che è più difficile sentire chiaramente un suono in presenza di un rumore di fondo. Questo dato è reso ovvio dall'esperienza quotidiana, ma, a ben pensarci, costituisce una evidente violazione del principio di sovrapposizione, ovvero, una prova che il principio non si applica ai suoni percepiti.

Eccone due esempi: nel primo un suono puro più forte ne maschera un altro più debole compreso nella stessa banda critica (tra 400 e 510 Hz). Nel secondo un rumore bianco si dimostra molto più efficace nello schermare il suono puro. Infatti si ottiene il mascheramento anche se il rumore bianco è filtrato in modo da non contenere componenti spettrali nella stessa banda critica del suono puro.

Spettro masch sim.png
Speaker.png

AUDIO: clicca qui per ascoltare

masch_sim.mp3

un suono puro di ampiezza 0.95 a 500 Hz ne maschera uno di ampiezza 0.1 (quindi circa 20 dBm meno intenso) a 440 Hz.

Spettro masch sim rumore.png
Speaker.png

AUDIO: clicca qui per ascoltare

masch_sim_rumore.mp3

Un rumore bianco in cui la banda 400-500 Hz è soppressa maschera un suono puro a 440 Hz.

È interessante notare, però, che si può avere un fenomeno in un certo senso inverso: in un tavolo in cui tutte le persone parlano animatamente tra loro il cervello è in grado di filtrare dal rumore di fondo la particolare conversazione che ci interessa. Lo stesso dicasi per il tavolo a fianco, dove qualcuno sta parlando (a bassa voce) male di noi, e la sua voce, all'improvviso, ci giunge stacca chiara dal fondo. È il cosiddetto effetto cocktail party.

È anche curioso notare che, se, paradossalmente il principio di sovrapposizione non valesse per i suoni fisici, non potremmo distinguere nessuna conversazione, se più persone parlassero contemporaneamente.

Mascheramento temporale

Il fenomeno si produce quando un suono debole segue, o, incredibilmente, precede un suono più intenso. Il suono debole non è percepibile, se l'intervallo di tempo tra i due è inferiore ad una certa soglia. Per il mascheramento in avanti, cioè quando il suono forte precede il suono debole, la soglia è circa 50 ms. Per il mascheramento all'indietro circa 10 ms.

Nel seguente esempio un glissando da 200 a 3200 Hz viene eseguito tre volte. In tutti i casi, come si evince osservando il sonogramma accanto, il suono si interrompe per 150 ms, ma l'interruzione è percepibile solo nel terza ripetizione. Nella prima ripetizione il breve silenzio è mascherato da rumore bianco, mentre nella seconda da rumore bianco cui è stata sottratta la banda dai 900 Hz ai 2000 Hz (che conterrebbe la frequenza del glissando nei 150 ms in cui invece esso cessa).

Sonogramma Audio
Spettro masch temp.png
Speaker.png

AUDIO: clicca qui per ascoltare

masch_temp.mp3

mascheramento temporale che dà l'illusione di continuità del suono

Approfondimenti e collegamenti

Si vedano le sezioni collegate su

A chi vuole saperne di più sull'uso del mascheramento nel formato MP3 e conosce l'inglese consigliamo senz'altro l'ottimo articolo Behind the Mask.


"Fisica, onde Musica": un sito web su fisica delle onde, acustica degli strumenti musicali, scale musicali, armonia e musica.

Licenza Creative Commons

Valid XHTML 1.0 Transitional

Valid CSS!