Semplici modelli per la voce

Da "Fisica, onde Musica": un sito web su fisica delle onde e del suono, acustica degli strumenti musicali, scale musicali, armonia e musica.

Benché la produzione di suoni e rumori indistinti da parte dell'apparato vocale umano sia un fenomeno relativamente semplice dal punto di vista strettamente fisico (si veda Come si produce la voce), l'articolazione dei fonemi e la loro organizzazione in sequenze intelligibili è invece un fenomeno molto complesso, che non può essere descritto unicamente nell'ambito della fisica.

Naturalmente non vogliamo affrontare qui nel dettaglio l'affascinante argomento, che richiede la comprensione di molti aspetti anche fisiologici e percettivi, oltre che strettamente acustici, ma vogliamo mostrare che, almeno in alcuni casi semplici, poche elementari nozioni di base di fisica delle onde possono fornire previsioni piuttosto accurate, e chiarire grandemente alcuni aspetti essenziali della produzione del suono associato all'articolazione delle vocali.

Il suono vocalico

Il suono delle vocali è quello più facile da descrivere in termini fisici, perché è un suono quasi stazionario, prodotto senza che vi compaiano evidenti componenti di rumore, caratteristica tipica invece, ad esempio, dei suoni consonantici.

Cosa distingue una vocale da un'altra? I suoni vocalici hanno colori diversi, ma si tratta di una componente del timbro sonoro che non ha nulla a che fare col timbro di voce del parlante. L'utilità di questo fatto è evidente: ci permette di riconoscere una A da una I quasi indipendentemente dalla particolare qualità di voce del parlante. Ispezionando i sonogrammi della figura è evidente che le diverse vocali abbiano suoni diversi, ma come sono legate queste differenze alle caratteristiche dello "strumento" che ha prodotto il suono?

Per scoprire quali fattori influenzino le particolari caratteristiche timbriche che ci permettono di distinguere le vocali è utile creare un modello fisico del tratto vocale umano.

sonogramma Audio
Spettro VOX AEEIOOU.png
Speaker.png

AUDIO: clicca qui per ascoltare

VOX_AEEIOOU.mp3

vocali parlate

Il modello più semplice possibile consiste in un tubo di diametro variabile, alla cui base è posta una sorgente di oscillazioni acustiche (la glottide), e la cui altra estremità è aperta (la bocca).

Nonostante la descrizione del tratto vocale in questi termini sia molto semplificata, essa fornisce comunque molte utili informazioni, e costituisce un modello per certi aspetti illuminante. Questo modello si presta ad essere simulato con la stessa tecnica che abbiamo utilizzato per gli altri tubi (si veda acustica di strumenti a fiato modello). Scopriremo nel seguito che le simulazioni risultano sorprendentemente accurate, rispetto alla semplicità del modello, e sono in grado di associare correttamente alcune caratteristiche morfologiche del tratto vocale con il suono delle diverse vocali.

Inutile sottolineare che la possibilità di simulare il suono porta direttamente alla possibilità di sintetizzarlo (cosa che oggi comunemente molti dispositivi elettronici anche portatili sono in grado di fare a partire, ad esempio, da un testo scritto).

Naturalmente molte caratteristiche fini sono invece perse, e alcuni suoni (come le vocali nasalizzate) che richiedono cavità risonanti supplementari, non possono essere simulate con accuratezza.

Dalla radiografia al modello

Il primo a praticare questo approccio fu lo studioso svedese G. Fant che, nel 1950, ebbe l'idea di dedurre le misure dei diametri del tratto vocale da un insieme di radiografie scattate mentre un soggetto pronunciava le sei vocali della lingua russa.

Nel seguito abbiamo utilizzato il nostro applet JPipes per simulare la risposta del tratto vocale basandoci sui dati di Fant.

Nei disegni a sinistra è rappresentata (solo schematicamente) la configurazione di lingua palato e labbra mentre il soggetto pronuncia la vocale corrispondente. Nel mezzo si vede la sezione del tratto vocale corrispondente semplificato in modo che abbia sezione cilindrica e asse rettilineo. Lo 0 è posto nella laringe in corrispondenza delle corde vocali, mentre il punto finale corrisponde alla bocca. L'intero tratto per questo soggetto misura all'incirca 16 cm di lunghezza. A destra è infine disegnata la risposta in frequenza calcolata con la simulazione numerica.

Si tenga presente che la risposta in frequenza non corrisponde allo spettro del suono della vocale, ma è una proprietà intrinseca del tratto vocale. Per ottenere il suono bisogna aggiungere le frequenze prodotte dalla sorgente (la glottide). Comunque il suono delle cinque vocali russe rappresentate è abbastanza simile a quello delle corrispondenti italiane.

disegno (solo indicativo) misure radiografiche risposta in frequenza
Le vocali U e O sono articolate con conformazioni del tratto vocale molto simili. La differenza più rilevante consiste nella chiusura delle labbra, che formano un'apertura più stretta per la U rispetto alla O. A parte la forma delle labbra, entrambe le vocali appaiono associate ad una conformazione composta da due tratti tronco-conici, uno convergente, ed uno divergente, di lunghezzza simile. La strozzatura sta nella parte posteriore del canale, fino verso alla metà. La caratteristica più evidente della risposta consiste nella presenza di due picchi molto ravvicinati sotto i 1000 Hz, seguiti da una vasta regione di sostanziale antirisonanza, e poi altri due picchi ravvicinati intorno ai 4000 Hz.
Vocale u.png Fant u geo.png Fant u imp.png
Vocale o aperta.png Fant o geo.png Fant o imp.png
disegno (solo indicativo) misure radiografiche risposta in frequenza
La forma del tratto vocale per la A si presenta come la giunzione di due canali. Il primo ha diametro decisamente inferiore al secondo. Nonostante la forma dei due sotto-tratti sia un po' irregolare, vedremo che la caratteristica saliente del sistema sta nella presenza di due tratti aventi diametri differenti. Un modello semplificato in cui si assume che i due tratti siano cilindrici, infatti, dà risultati ugualmente soddisfacenti, anche se non così accurati. La risposta del tratto vocale per la A assomiglia a quella per U e di O, ma i primi due picchi sono spostati a frequenze maggiori (attorno ai 1000 Hz). Timbricamente questo equivale ad un suono meno "cupo". Infatti, mentre la O chiusa italiana è più vicina al suono della U, la O aperta assomiglia molto di più ad una A.
Vocale a.png Fant a geo.png Fant a imp.png
disegno (solo indicativo) misure radiografiche risposta in frequenza
E ed I sono entrambe caratterizzate da una situazione inversa a quella della A: un tratto di diametro maggiore precede uno di raggio minore. La strozzatura si trova nella metà anteriore del canale. Nella I la differenza tra i diametri è decisamente più pronunciata. Queste due risposte si assomigliano tra loro, mentre si discostano da quelle di tutte le altre vocali in quanto i primi due picchi sono molto distanziati tra loro. Il secondo, in particolare, cade sempre in un raggio di frequenze che corrispondeva ad un antirisonanza per A, O e U. Nella I la distanza tra i primi due picchi è ulteriormente accentuata.
Vocale e chiusa.png Fant e geo.png Fant e imp.png
Vocale i.png Fant i geo.png Fant i imp.png

Conclusioni

Abbiamo detto che le vocali rappresentate nel paragrafo precedente assomigliano abbastanza nel suono alle corrispondenti vocali italiane. Possiamo visualizzare queste somiglianze a partire dai nostri dati? Emerge uno schema comune?

Proviamo a paragonare le formanti ottenute mediante la simulazione per cinque vocali russe con le formanti delle corrispondenti vocali italiane, direttamente estratte dai nostri campioni sonori (Voce umana).

Siccome non è semplice confrontare direttamente gli spettri, proviamo a osservare le posizioni dei primi due picchi (gli addetti ai lavori le chiamano formanti).

Notiamo che la posizione assoluta delle formanti nei due casi non può essere esattamente la stessa perché il tratto vocale radiografato e simulato non è quello della nostra cantante, e quindi ha morfologia differente. In particolare il tratto della radiografia è più lungo, e quindi è caratterizzato da frequenze complessivamente più gravi.

Ciononostante, il paragone fa emergere chiaramente una struttura analoga in entrambi i casi, e, infatti, le vocali poste in punti equivalenti dei triangoli nella figura a destra sono riconosciute come identiche (o molto simili tra loro).

Il modello, cioè permette di descrivere con accuratezza le differenze tra le vocali in termini di posizione della prima formante, e distanza tra prima e seconda formante.

formanti simulate formanti misurate Confronto
Risonanze modelli.png Formanti italiano.png Confronto formanti.png
La freccia azzurra evidenzia la posizione della prima formante. Sia negli spettri simulati, sia in quelli reali, si nota che la frequenza della prima formante aumenta passando da I ad A, mentre diminuisce passando da A ad U. La freccia blu evidenzia la distanza tra le prime due formanti. Essa è massima per la vocale I, poco inferiore per la E, mentre decisamente più piccola per le altre vocali. Il grafico mostra la posizione delle prime due formanti estratte dai nostri campioni per le vocali italiane (in rosso) e quelle simulate per i tratti vocali della lingua russa (in verde). Balza all'occhio come come entrambe le serie di vocali si dispongano a formare un triangolo che ha come vertici I, A e U. Queste vocali suonano molto simili in entrambe le lingue, e questo fatto è ottimamente riprodotto dal nostro semplice modello.

Per ulteriori discussioni, e approfondimenti sull'estrazione delle formanti dallo spettro sonoro si veda la pagina La vocale A.


"Fisica, onde Musica": un sito web su fisica delle onde, acustica degli strumenti musicali, scale musicali, armonia e musica.

Licenza Creative Commons

Valid XHTML 1.0 Transitional

Valid CSS!