ISSN 1989-1938
Espai web patrocinat per:
Revista de pensament musical en V.O.

El to: una qualitat enigmàtica


ANA BARJAU I CONDOMINES
· Doctora en Física. Professora Titular del Dep. d’Enginyeria Mecànica de la UPC

Tot i que, des de l’antiguitat, el ser humà és conscient que el «tot» és més que la suma de les seves «parts», l’estudi científic de qualsevol fenomen sol començar per la descripció del que es consideren els elements més senzills (els àtoms) que, per combinació entre ells, generen la realitat complexa que es vol estudiar. La tria d’aquests àtoms està inevitablement lligada a la nostra capacitat d’observació i experimentació: la frontera es troba allà on deixem de poder mesurar amb precisió (de distingir!).
Quan es tracta de percepció auditiva, els àtoms sonors han de ser els sons amb menys atributs diferencials (o qualitats), i per tant més fàcils de descriure i de reconèixer. Trobar un únic atribut que permeti distingir els sorolls que s’obtenen sacsejant una branca és gairebé impossible; en canvi, hi ha un atribut que permet distingir els diversos sons d’un instrument musical de manera immediata: el to. Els àtoms sonors, doncs, podrien ser els sons que presenten un to definit (tradicionalment anomenats «sons musicals»). La seva anàlisi científica comença amb la descripció quantitativa objectiva (mitjançant un número) d’aquesta qualitat.
El to es defineix com a la qualitat perceptiva del sons que permet classificar-los en una escala de greus a aguts. És possible llavors considerar-lo un atribut objectiu? Si un mateix so és classificat en aquesta escala de la mateixa manera per un conjunt ampli i neutre de receptors (és a dir, sense formació musical específica), potser es pot concloure que sí que ho és. Per altra banda, si un mateix so és classificat de manera diferent per diversos receptors, no pot ser considerat com a so de to ben definit i per tant no entra dins la categoria de so «senzill».

La qualitat de to és força més complexa del què suggereix la definició, i fer-ne una mesura quantitativa objectiva que concordi plenament amb la percepció del to no és gens evident. El procés sonor es divideix en quatre etapes fonamentals: producció, propagació, recepció i percepció. Tot i que la percepció és qui ens dona la informació del to (d’acord amb la definició estàndard), aquest atribut és físicament present en les etapes prèvies: la de producció el determina i la de propagació el manté. La seva mesura, doncs, s’hauria de poder fer en qualsevol d’elles. Però què és el que cal mesurar?

Posar data precisa a l’aparició de la descripció científica dels sons amb to definit és impossible, però hi ha consens pel que fa al filòsof que dona el primer pas: Pitàgores (570 aC – 469 aC). A partir d’experiments amb cordes del mateix material i sotmeses a una mateixa tensió, Pitàgores estableix una relació entre les seves llargàries i els intervals musicals que produeixen quan són percudides o pinçades1. Així, quan aquesta proporció de llargàries és de 3 a 2, l’interval és una quinta; quan és de 4 a 3, es tracta d’una quarta… No descriu, per tant, els “sons musicals” de manera individual sinó la distància (dins l’escala greu-agut) de parelles de sons. Aquestes proporcions numèriques, doncs, no s’han d’interpretar com a mesures de to sinó de separació entre tons.
Tot i constituir el primer intent de mesura quantitativa (expressable mitjançant números) del so, els resultats de Pitàgores s’han d’analitzar amb molta cautela. Cal tenir en compte que la llargària és només una de les quatre qualitats fonamentals d’una corda (les altres tres són la densitat del material, el gruix i la força amb què es troba tensada). Si Pitàgores hagués fet atenció a la relació de forces de tensió en comptes de llargàries, a un interval de quinta li hauria correspost la proporció 9 a 4. La quantificació dels intervals a partir de les propietats físiques de les cordes no és unívoca (cal tenir present, però, que eren més simple experimentar amb cordes que només diferien en llargària que no pas fer-ho amb llargària única i tensió variable).
Fixades les quatre qualitats d’una corda (que són estàtiques, doncs es poden mesurar amb la corda en repòs), el to del so que produeix quan vibra és únic. En conseqüència, la quantificació unívoca del to ha de correspondre a la d’alguna característica d’aquest moviment (és a dir, a una propietat temporal i no estàtica).

Aristoxen de Tàrent (361 aC- 301 aC) va suggerir que el to es relaciona amb la rapidesa del moviment de l’objecte que ha produït el so. Tot i ser un pas important en la direcció correcta, es tracta d’una hipòtesi poc precisa: què vol dir «rapidesa del moviment»? Si es tracta de velocitat de l’objecte, de quin dels seus punts? Una corda tensada de piano o de violí, per exemple, té els dos punts extrems en repòs permanent (velocitat nul·la!) en tant que tots els altres punts passen per valors de velocitat molt diversos…
No és fins a començaments del segle XVII que Marin Mersenne (1588 –1648) precisa aquesta hipòtesi i aconsegueix les primeres mesures quantitatives representatives del to a partir de l’estudi de les vibracions de cordes tensades. Mersenne associa el to al moviment repetitiu de la corda, i pren l’interval temporal de repetició «T» (que es mesura en segons) o la freqüència «f» (que és l’invers del període i es mesura en Hertz – abreujat com a Hz–, que és el nombre de repeticions per segon: f=1/T) com a descripció quantitativa.

Atès que els sons audibles tenen freqüències compreses entre els 20 Hz i els 20.000 Hz (de 20 a 20.000 oscil·lacions per segon), no és d’estranyar que la seva mesura fos un problema sense solució durant molt de temps. El mètode de Mersenne és una mostra d’enginy molt notable: treballa primer amb cordes molt llargues, el moviment vibratori de les quals és lent i visible però no genera so audible. És capaç llavors de comptar a vista el nombre d’oscil·lacions en un interval de temps i avaluar-ne així la freqüència. Reduint progressivament la llargària de la corda (bo i mantenint-ne constant el material, el gruix i la força amb que està tensada), descobreix que el període d’oscil·lació disminueix de manera directament proporcional (i per tant la freqüència augmenta de manera inversament proporcional). Això li permet fer una extrapolació i avaluar la freqüència dels sons audibles generats per cordes molt més curtes.

Hi ha quelcom però que cal no perdre de vista: les vibracions dels objectes que produeixen so (les fonts de so) són només el primer pas en una cadena d’un procés que culmina en la percepció del to: no és fins que el sentim que podem dir si es tracta d’un to agut o d’un to greu. El patró de moviment de la font (per exemple, d’una corda) no és estrictament idèntic al de l’aire ni al del timpà: cada element de la cadena producció-propagació-recepció-percepció el modifica d’acord amb les seves propietats intrínseques. Si el receptor (últim element de la cadena) és un ésser humà, cal acceptar que el patró de d’impulsos nerviosos (condicionat fortament per la freqüència màxima amb què poden respondre les cèl·lules nervioses) que finalment arriba al cervell pot no ser el mateix que el de la font.

Mersenne no treballa només amb variacions de longitud sinó que explora també com depèn la freqüència dels altres paràmetres de la corda (densitat del material, gruix i tensió), i acaba establint així una fórmula empírica (la llei de Mersenne) que constitueix una molt bona aproximació per al càlcul de l’afinació d’una corda tensada:

L’interès d’aquesta equació és que relaciona totes les propietats atemporals de la corda (les úniques considerades per Pitàgores) amb l’aspecte temporal associat de manera unívoca al to: la freqüència. Així, la relació 3:2 representativa de l’interval de quinta i establerta per Pitàgores ja no s’interpreta necessàriament com a una proporció de llargàries sinó que correspon a una proporció de freqüències.Paral·lelament als treballs de Mersenne, Galileu (1564 – 1642) va desenvolupar la mateixa llei, i va dedicar una part important de la seva recerca a la consonància (aspecte inseparable del to ja que està associat a la superposició de tons). En qualsevol cas, ni Mersenne ni Galileu es van plantejar com tradueix l’aparell auditiu el senyal vibratori que prové de la font sonora.

La periodicitat de les vibracions de les cordes és només un aspecte del seu moviment. Una descripció completa ha d’incloure també l’amplitud i la forma del moviment. D’aquests tres aspectes, la periodicitat és l’únic paràmetre intrínsec: depèn exclusivament de les característiques físiques (llargària, gruix, densitat) i l’estat (tensió) de la corda. Amplitud i forma del moviment, en canvi, depenen de com s’interacciona amb la corda per posar-la en moviment (es pot percudir en un punt centrat o no centrat, es pot fer un pinçament més o menys ample…): es tracta de qualitats extrínseques.

Mersenne va relacionar la periodicitat amb el to, i l’amplitud amb la intensitat, però no va fer atenció a la forma de la vibració. Amb quina qualitat perceptiva es relaciona aquesta última és una qüestió que va quedar oberta durant molt de temps.

Figura 1: Dos moviments oscil·latoris amb el mateix període de repetició (i per tant la mateixa freqüència) però amb amplitud i formes diferents. El senyal continu és més intens que el vermell, i la forma és menys senzilla.

La Figura 1 il·lustra aquests tres aspectes del moviment vibratori d’una corda que té els dos extrems fixos a l’instrument. El que es mostra és com canvia, al llarg del temps, la distància de dos punts diferents (traç continu, traç discontinu) a la posició que tenen quan la corda no es mou. Tots dos senyals són repetitius, i el període (i per tant la freqüència) de repetició és el mateix (T=10 milisegons=0,01 segons; f=100 Hz). En canvi, el senyal continu és més intens que el discontinu, i les formes són diferents.

Com a moviments oscil·latoris, tots dos senyals consisteixen en un vaivé al voltant de la posició mitjana de la corda en repòs. Ara bé, el continu té una forma menys senzilla que el discontinu, doncs presenta un lleuger vaivé també quan es troba més allunyat de la posició mitjana: s’endevina una oscil·lació d’amplitud petita superposada a l’oscil·lació d’amplitud gran.
Aquesta descripció analítica es mostra a la Figura 2(a): el senyal blau es pot obtenir sumant dos senyals de forma idèntica i senzilla (sinusoïdal) que només difereixen en amplitud i freqüència: el verd (baixa amplitud i freqüència 300 Hz) i el vermell (gran amplitud i freqüència 100 Hz).

A partir dels mateixos senyals sinusoïdals (amb les mateixes freqüències i amplituds) es pot obtenir un senyal resultant també de 100 Hz però de forma diferent modificant les fases relatives (Figura 2(b)): mentre que el vermell comença en fase creixent (com en el cas de la Figura 2(a)), el verd ho fa en fase decreixent.

Figura 2: El senyal oscil·latori blau es pot obtenir com a superposició (suma) de dos senyals senzills d’intensitat diferent i de freqüències 100 Hz i 300 Hz. La freqüència del senyal resultant de la superposició coincideix amb la més baixa de les dues que s’han superposat. La diferència de forma dels senyals (a) i (b) prové de la diferència de fase del senyal verd: en el cas (a) comença creixent mentre que en el (b) ho fa en sentit decreixent.

La descomposició que es mostra a la Figura 2 és matemàtica (i lícita), però la realitat física del moviment és el «tot». Per tant, el to associat a tots dos senyals hauria de ser el mateix: 100 Hz.

Figura 3: El senyal oscil·latori blau, de 100 Hz, es pot obtenir com a superposició de quatre senyals senzills d’intensitat diferent i de freqüències 100 Hz, 200 Hz, 300 Hz i 400 Hz.

En els seus escrits, Mersenne afirma que és capaç de distingir fins a quatre tons diferents en els sons produïts per una corda (com el senyal blau de la Figura 3), i es pregunta com pot ser que la corda vibri alhora amb diferents freqüències. Aquesta reflexió és fonamental perquè planteja una qüestió essencial: la impossibilitat de separar la definició de l’atribut de to del procés de percepció. Per altra banda, pot fer pensar que en algun moment del procés auditiu es produeix una diferenciació dels elements senzills sinusoïdals continguts en el so total.

La primera persona que proposa que la diferenciació es produeix dins l’oïda interna és l’anatomista Joseph-Guichard Du Verney (1648 – 1730). Segons ell, cada zona de la membrana basilar (element estructural de l’oïda interna de gruix i rigidesa variable) reacciona bàsicament a una vibració sinusoïdal de freqüència determinada (de la mateixa manera que a la llengua hi ha zones especialitzades en la percepció dels quatre sabors bàsics: dolç àcid, amargant, salat). És el començament de la teoria espectral, segons la qual la percepció del to es basa en aquesta localització espacial de la sensibilitat tonal (tonotopia).

En els exemples precedents, han aparegut dues qüestions bàsiques (no resoltes per Mersenne ni Galileu) que, tot i tenir un parentiu, pertanyen a dos àmbits diferents (la física i les matemàtiques): la possibilitat que una mateixa corda pugui vibrar físicament segons un mateix patró de forma (sinusoïdal) però amb freqüències diferents, i la possibilitat de descompondre matemàticament qualsevol vibració periòdica en vibracions sinusoïdals d’amplituds i freqüències diferents.

Uns setanta anys després dels treballs de Mersenne, Joseph Sauveur (1653 – 1716) confirma experimentalment la primera, i un segle més tard Joseph Fourier (1768 – 1830) demostra matemàticament la segona i precisa que les diferents freqüències han de ser múltiples enters de la freqüència de la vibració total (és a dir, la proporció entre totes les parelles possibles associades a les freqüències presents en la descomposició han de correspondre a quocients de nombres enters: 2/1, 3/2, 5/4…). Sembla, doncs, que s’ha arribat a la caracterització (definició) dels autèntics àtoms sonors: els associats a vibracions sinusoïdals, anomenats tons purs. Tot so que conté més d’un to pur s’anomena so complex.

El treball de Fourier va més enllà de l’anàlisi dels senyals periòdics. De fet, demostra que qualsevol senyal vibratori (i per tant qualsevol so) es pot descompondre de manera única en senyals sinusoïdals purs de freqüència, amplitud i fase ben determinades. Tot so, doncs, es pot entendre com a una molècula resultat de l’agregació d’aquests àtoms. Quan tots aquests àtoms tenen freqüències múltiples enters d’una mateixa freqüència més baixa (fonamental), s’anomenen harmònics; quan s’allunyen d’aquesta relació, s’anomenen parcials.

Aquestes constatacions objectives no posen punt final a les discussions sobre l’atribut de to associada a un so. Si bé les afirmacions de Mersenne apunten cap a un procés d’anàlisi de l’estímul sonor i l’associació de to a les freqüències dels diversos tons purs continguts en el so total, hi ha situacions en què el to percebut no coincideix amb cap dels tons purs.

Figura 4: El senyal complex (blau) té un període de20 ms (i per tant una freqüència de 50 Hz), però és la superposició de tres senyals purs d’intensitat diferent i de freqüències 100 Hz, 200 Hz i 350 Hz.

La Figura 4 en mostra un exemple: el so complex (blau) és la superposició tres tons purs de freqüències 100 Hz, 200 Hz i 350 Hz, però la seva freqüència és de 50 Hz (que és el màxim comú divisor de 100, 200 i 350). La qualitat del tot, doncs, no coincideix amb la de les «parts».

La percepció del to en el cas de sons complexos pot ser ambigua. En l’exemple precedent, es poden arribar a percebre tres tons diferents: els dels tons purs (tons espectrals) i l’associat a la repetitivitat global (to de periodicitat). La teoria espectral (o teoria de la localització espacial) explica la percepció dels tons espectrals, però no pot explicar la del to de periodicitat.

No és fins a meitats del segle XX que apareix una altra teoria (teoria temporal) segons la qual la «mesura» del to no té lloc a la membrana basilar sinó directament al cervell: cada pic d’amplitud del senyal acústic estimula el nervi auditiu i desencadena un impuls nerviós que es transmet al cervell, el qual avalua el seu ritme d’arribada i li associa un to. Per al cas de l’exemple de la Figura 4, la detecció dels pics senyalats amb una fletxa vertical justificaria la percepció del to de 50 Hz.

Però la teoria temporal no ho pot explicar tot. Cal tenir en compte que les neurones tenen un temps mort després de cada activació durant el qual no responen. Una mateixa neurona no es pot activar més d’unes 1.000 vegades per segon. Si la detecció de pics depengués d’una sola neurona, això limitaria el rang de freqüències identificables d’acord amb aquest mecanisme a valors inferiors a 1.000 Hz.
Si les neurones no s’activen simultàniament, pot ser que durant el temps mort d’una d’elles n’hi hagi unes altres que sí que ho facin. En aquest cas, es podria arribar a estendre el rang de freqüències detectables segons la teoria temporal fins a uns 5.000 Hz. Per sobre d’aquest valor, la teoria espectral és la que s’invoca per justificar la percepció dels tons (tot i que amb poca resolució).

La teoria espectral i la temporal es situen en dos nivells diferents en la cadena de percepció auditiva: la primera té en compte la resposta mecànica de la membrana basilar (situada a l’oïda interna), mentre que la segona es basa en la dinàmica neuronal (que és un pas cap al cervell). Però cap de les dues considera la manera com interpreta el cervell aquestes informacions (zona de màxima resposta de la membrana i ritme d’arribada d’impulsos nerviosos).
De manera general, el cervell humà processa la informació que li arriba a través dels sentits i «l’entén» quan hi descobreix un patró que comparteix un grau de semblança elevat amb un conjunt de plantilles de referència2. D’aquesta manera, pot arribar a associar un to definit a un patró no estrictament periòdic.

Figura 5: El senyal oscil·latori blau, que no és estrictament periòdic, es pot obtenir com a superposició (suma) de dos senyals purs de la mateixa intensitat i de freqüències 100 Hz i 70,71 Hz.

La Figura 5 mostra un senyal acústic no periòdic obtingut superposant dos tons purs de 70,71 Hz i 100 Hz (el fet de tenir un mínim comú divisor de 0,01 Hz fa que el senyal es consideri no periòdic: caldrien més de 27 hores perquè es tornés a repetir idèntic a sí mateix!). Tot i així, es percep com a to d’uns 100 Hz: tot i que els pics no estan separats estrictament 10 ms, el grau d’irregularitat és prou petit com perquè el cervell «compensi» les petites diferències.

En realitat, qualsevol so presenta com a mínim dues fases durant les quals no és estrictament repetitiu: una inicial (transitori d’atac) en què creix d’intensitat, i una final en què s’extingeix (transitori d’extinció)3. Durant els transitoris, la forma del senyal sol canviar de manera no homotètica (és a dir, no és simplement un canvi de d’escala geomètrica). En alguns casos, hi ha una fase intermèdia en què la intensitat es manté gairebé constant (fase estacionària o de so mantingut). Els sons emesos per pianos, guitarres i arpes, per exemple, són purament transitoris. Tot i així, som capaços d’associar-los un to definit sense cap dificultat (tret potser dels sons del registre més baix del piano): el cervell pot descobrir un grau de semblança elevat entre el senyal transitori i un d’estacionari amb el mateix contingut espectral. La Figura 6 en mostra un exemple (amb un canvi de forma purament homotètic).

Tot i que aquest últim exemple pot fer pensar que la variació lenta d’intensitat dels senyals pot ser ignorada pel cervell, no és així. La Figura 7 mostra un so estrictament periòdic obtingut a partir de dos tons purs de freqüències molt properes (100 Hz i 108 Hz). El màxim comú divisor és 4 Hz, freqüència que queda fora del rang audible. En aquest cas, es percep un to la freqüència del qual és el valor mitjà de les dels parcials (104 Hz), amb una intensitat que varia d’acord amb una freqüència que correspon a la meitat de la diferència de les freqüències parcials (8 Hz en el cas de l’exemple). És el que s’anomena batement4.

Figura 6: El senyal blau no és periòdic, doncs la seva intensitat decreix al llarg del temps. Tot i així, l’oïda el percep com a periòdic amb freqüència 100 Hz. El cervell és capaç de compensar el decreixement i descobrir la semblança amb el senyal estrictament periòdic vermell (que prové de la superposició de dos tons purs de 100 Hz i 400 Hz).

La qualitat de to està íntimament relacionada amb la percepció del so, i per això actualment totes les teories sobre el to es relacionen més amb la representació del so per part del cervell que en propietats purament físiques i objectives del so. Com s’ha vist al llarg dels exemples, n’hi ha bàsicament dues: l’espectral (o de localització espacial a l’oïda interna) i la temporal. Però són teories (o models), maneres que tenim d’explicar una qualitat que encara roman un misteri ja que pertany al domini del funcionament del cervell. És possible, finalment, que la percepció del to per part del sistema auditiu no estigui basada en cap d’elles vist que no és possible explicar-ho tot només amb una. A més, tampoc cobreixen totes dues tota la complexitat del procés de percepció del to. Hi ha aspectes per als quals encara no es disposa d’una justificació, com per exemple el fet que el to associat a un mateix so transitori escoltat del dret i del revés no és el mateix (Figura 8).

Figura 7: Batements associats a la superposició de dos tons purs de freqüències 100 Hz i 108 Hz. Les fluctuacions d’intensitat es produeixen a un ritme de 8 Hz, mentre que el to percebut correspon al valor mitjà de 104 Hz.

Figura 8: Un mateix senyal acústic del dret i del revés. Tot i consistir en una vibració sinusoïdal d ela mateixa freqüència però ritme de variació d’intensitat oposat, el to que es percep quan creix és més agut que quan decreix.

És previsible (i desitjable), doncs, que apareguin noves teories en el futur i potser, idealment, una de sola capaç d’explicar la totalitat d’aquest atribut tan subtil. Aquest ha estat sempre l’objectiu de la ciència: concentrar tots els fenòmens naturals en una única llei5.

 *  *  *

1. Els conceptes d’interval i d’escala musical (amb l’interval d’octava com a pilar fonamental) ja estaven ben establerts abans que s’abordés la qüestió de la caracterització del to.
2. L’origen de les referències tonals no és una qüestió tancada: hi ha qui suggereix que són referències adquirides associades a l’exposició constant de la nostra oïda a sons amb contingut tonal elevat (la pròpia veu humana, el cant dels ocells…), hi ha qui manté que aquest aprenentatge no requereix exposició a sons tonals, i hi ha fins i tot qui es qüestiona que calgui un aprenentatge.
3. Per descriure les fases transitòries, s’empren elements bàsics sinusoïdals amb amplitud variable. Des del punt de vista matemàtic, aquests elements es caracteritzen no només per la seva freqüència sinó també pel seu ritme de variació d’amplitud (que, en principi, és diferent per a cadascun d’ells. Sovint, un so complex transitori comença o acaba essent un to pur.
4. Els batements són la base del procés d’afinació d’un piano: l’afinador ajusta la tensió de les cordes fins que les variacions d’intensitat associades als batements entre freqüències fonamentals (o freqüències de certs parcial) són prou lentes com per no ser apreciables.
5. Avui en dia, els avenços tecnològics estan permetent abordar els problemes científics a partir del tractament estadístic de gran quantitats de donades (“big data”) i no de la formulació mitjançant lleis físiques expressades de manera compacte en forma d’equacions matemàtiques. Es tracta d’una manera de procedir semblant a la del cervell humà (que, durant la primera etapa de la seva vida, aprèn que els objectes cauen cap a terra sense tenir cap noció de la llei de gravitació universal).