Mascheramento
Da "Fisica, onde Musica": un sito web su fisica delle onde e del suono, acustica degli strumenti musicali, scale musicali, armonia e musica.
Jump to navigation Jump to searchPercezione e compressione dei dati
La psicoacustica è la scienza che si occupa del suono percepito, anziché del suono fisico. Oltre all'interesse che essa riveste per le ricerche pure nel campo della fisiologia e la psicologia della percezione, questa scienza è particolarmente attuale nella nostra epoca, in cui la riproduzione, la trasmissione e la manipolazione dei suoni per via elettronica sono divenute una realtà che permea sempre maggiori porzioni della nostra vita.
È necessario rendersi conto che l'informazione sonora è estremamente ingombrante. Proviamo a farcene un'idea con un esempio:
oggetto | codifica | dimensione dell'informazione |
---|---|---|
Un grosso libro di 5 milioni di caratteri (all'incirca delle dimensioni della Bibbia) | ASCII (formato solo testo 1 byte per carattere) | 5000000 byte (circa 4.8 MB) |
Una grande fotografia a colori, diciamo di 1280x1024 pixel | risoluzione di 16 milioni di colori (cioè 24 bit per pixel) | 3932160 byte (circa 3.75 MB) |
1 minuto di musica | per non sopprimere nessun suono percepibile dobbiamo campionare a 44.1 kHz, in stereofonia, e con una gamma dinamica di almeno 16 bit per campione. | 10584000 byte (circa 10 MB) |
Naturalmente è possibile comprimere l'informazione perdendo qualità, e questo è esattamente ciò che avviene nella maggioranza dei casi. Ecco una tabella con i parametri di qualità indicativi propri di alcuni mezzi di comunicazione audio. Si noti in particolare il caso del telefono, la cui larghezza di banda è giusto sufficiente a trasmettere con ragionevole intelligibilità la voce, ma del tutto inadeguata alla trasmissione di musica. La voce infatti resta intelligibile, anche se distorta, se si preserva la regione di spettro in cui cadono le formanti, che si trova entro i 5 kHz.
mezzo | frequenza di campionamento (kHz) | bit per campione (bit) | velocità di trasmissione dell'informazione (kB/s) | dimensione dell'informazione in 1 minuto di musica |
---|---|---|---|---|
telefono | 8 | 8 (mono) | 8 | 480 kB |
Radio AM | 11.025 | 8 (mono) | 11 | 660 kB |
Radio FM | 22.050 | 16 (stereo) | 88.2 | 5.3 MB |
CD | 44.1 | 16 (stereo) | 176 | 10.6 MB |
Si vede dunque che è cruciale sviluppare tecniche di codifica che permettano di comprimere l'informazione, riducendo lo spazio da essa occupato, ma senza possibilmente perdere la qualità del suono. Algoritmi di compressione come lo ZIP sono estremamente efficienti nel comprimere file di testo, e sono algoritmi senza perdita di informazione: il file originale può essere interamente ripristinato invertendo l'algoritmo. Lo zip tuttavia non funziona bene sui file audio.
A questo punto interviene la psicoacustica.
L'idea è sostanzialmente che se, in un segnale audio, riusciamo ad individuare le componenti meno percepibili, possiamo semplicemente eliminarle dal segnale, diminuendo la dimensione del file corrispondente senza che il segnale perda apparentemente qualità. Così è nato il popolare formato MP3.
Ma, attenzione: avrete notato che l'algoritmo prevede esplicitamente che il segnale compresso, questa volta, perda informazione. Una volta individuate ed eliminate le componenti psicoacustiche irrilevanti, infatti, esse spariscono dal file, e non c'è modo di recuperarle. Questo spiega perché non sia consigliabile applicare due volte di seguito la compressione MP3, oppure decomprimere e ricomprimere, ovvero, perché una compressione di livello 6 non sia equivalente a due compressioni di livello 3. A questo proposito bisogna ricordare comunque che esistono anche formati di compressione audio senza perdita di informazione, come il FLAC. Essi, però raggiungono indici di compressione minori rispetto a MP3.
Ecco un esempio di uno stesso brano (Toccata da la Favola d'Orfeo di C. Monteverdi) compresso a livelli sempre maggiori. L'originale occupa 1.6 MB in formato WAV, qualità CD, e 916 kB in formato FLAC (compresso senza perdita di informazione). Noterete che, al di sotto dei 128 kbit/s, la compressione MP3 diviene così spinta da provocare, effettivamente, il degrado della qualità sonora del campione.
La psicoacustica, attraverso il concetto delle bande critiche, ci permette di comprendere e sfruttare a nostro vantaggio il principale responsabile dell'ottima efficienza di compressione dell'MP3: il mascheramento.
Il Mascheramento
In molte pagine della sezione di fisica delle onde abbiamo sottolineato l'importanza del principio di sovrapposizione, e l'abbiamo applicato a casi di studio. Abbiamo insistito sul fatto che si tratta di un'utilissima ipotesi di lavoro, un'approssimazione molto importante sia perché essa si applica egregiamente a molte situazioni sperimentali, sia perché il suo utilizzo dischiude le porte ad una vasta serie di risultati e tecniche matematiche di capitale importanza per la fisica tutta, e in particolare per la fisica ondulatoria.
Nel caso dei suoni potremmo così riassumere il principio:
- in un punto dello spazio in cui giungono due suoni simultanei, il suono risultante è dato dalla la somma (algebrica) dei due suoni incidenti.
Il principio è molto intuitivo, almeno per suoni non troppo intensi, perché sappiamo che il suono altro non è che una piccola variazione di pressione, e quindi è naturale che due variazioni di pressione simultanee in un punto determinino una variazione di pressione data dalla somma delle due. Il bello del principio di sovrapposizione è che si può adoperarlo anche "a ritroso": dato un suono lo si può scomporre in somma di più suoni elementari. L'analisi di Fourier, ad esempio, fa grande uso di questa proprietà.
Il nostro orecchio, in un certo senso esegue proprio un'analisi di spettro dei suoni che riceve (il meccanismo è illustrato in fisiologia del sistema uditivo. Possiamo chiederci dunque:
- dato un suono che è la somma di due suoni componenti, il nostro orecchio saprà sempre scomporlo e distinguerne le componenti?
La risposta è negativa in molti casi. Per esempio:
- quando due suoni simultanei hanno altezze molto simili (si veda battimenti).
- quando uno dei due suoni è parecchio più forte dell'altro (mascheramento simultaneo).
- quando un suono molto forte precede di poco un suono più debole (mascheramento temporale in avanti)
- quando un suono molto forte segue di poco un suono più debole (mascheramento temporale all'indietro)
In tutti questi casi si ha una forma di mascheramento. L'orecchio, a causa della sua struttura, non riesce a scomporre il suono globale ricevuto nelle sue componenti fisiche, e ne percepisce una sola (come nei casi 2, 3, e 4), oppure percepisce un suono di caratteristiche completamente differenti (come avviene nel caso dei battimenti). L'origine del fenomeno si spiega studiando la fisiologia del sistema uditivo, e, in particolare tramite il concetto delle bande critiche. Nel seguito ne forniamo diversi esempi.
Mascheramento simultaneo
L'esperienza comune ci dice che è più difficile sentire chiaramente un suono in presenza di un rumore di fondo. Questo dato è reso ovvio dall'esperienza quotidiana, ma, a ben pensarci, costituisce una evidente violazione del principio di sovrapposizione, ovvero, una prova che il principio non si applica ai suoni percepiti.
Eccone due esempi: nel primo un suono puro più forte ne maschera un altro più debole compreso nella stessa banda critica (tra 400 e 510 Hz). Nel secondo un rumore bianco si dimostra molto più efficace nello schermare il suono puro. Infatti si ottiene il mascheramento anche se il rumore bianco è filtrato in modo da non contenere componenti spettrali nella stessa banda critica del suono puro.
|
||
|
È interessante notare, però, che si può avere un fenomeno in un certo senso inverso: in un tavolo in cui tutte le persone parlano animatamente tra loro il cervello è in grado di filtrare dal rumore di fondo la particolare conversazione che ci interessa. Lo stesso dicasi per il tavolo a fianco, dove qualcuno sta parlando (a bassa voce) male di noi, e la sua voce, all'improvviso, ci giunge stacca chiara dal fondo. È il cosiddetto effetto cocktail party.
È anche curioso notare che, se, paradossalmente il principio di sovrapposizione non valesse per i suoni fisici, non potremmo distinguere nessuna conversazione, se più persone parlassero contemporaneamente.
Mascheramento temporale
Il fenomeno si produce quando un suono debole segue, o, incredibilmente, precede un suono più intenso. Il suono debole non è percepibile, se l'intervallo di tempo tra i due è inferiore ad una certa soglia. Per il mascheramento in avanti, cioè quando il suono forte precede il suono debole, la soglia è circa 50 ms. Per il mascheramento all'indietro circa 10 ms.
Nel seguente esempio un glissando da 200 a 3200 Hz viene eseguito tre volte. In tutti i casi, come si evince osservando il sonogramma accanto, il suono si interrompe per 150 ms, ma l'interruzione è percepibile solo nel terza ripetizione. Nella prima ripetizione il breve silenzio è mascherato da rumore bianco, mentre nella seconda da rumore bianco cui è stata sottratta la banda dai 900 Hz ai 2000 Hz (che conterrebbe la frequenza del glissando nei 150 ms in cui invece esso cessa).
Sonogramma | Audio | |
---|---|---|
|
Approfondimenti e collegamenti
Si vedano le sezioni collegate su
A chi vuole saperne di più sull'uso del mascheramento nel formato MP3 e conosce l'inglese consigliamo senz'altro l'ottimo articolo Perceptual Coding: How MP3 Compression Works.