ISSN 1989-1938
Espai web patrocinat per:
Revista de pensament musical en V.O.

Música en l’Era Digital: revolució silenciosa, dades enllaçades, web semàntica i àudio semàntic.


NEIL MANEL FRAU-CORTÈS

Des de l’advent de l’Era Digital, la manera en què fem, distribuïm i consumim música ha sofert una transformació sense precedents. Tot i que és difícil predir el futur a llarg termini, és important ser conscients d’una sèrie de canvis transcendentals que estan en marxa –gairebé silenciosos i desapercebuts per part del consumidor– i que permeten albirar una transformació sense precedents. Ens referim concretament a la web semàntica, les dades enllaçades i l’àudio semàntic, tres conceptes sobre els quals corren i correran rius de tinta virtual.[1] Avui intentarem explicar aquests termes d’una manera tan planera com sigui possible, sense entrar en detalls massa tècnics.

Abans que existís el World Wide Web,[2] l’objectiu de les xarxes era comunicar un ordinador amb l’altre. Per a accedir a un fitxer en particular calia que l’usuari sabés en quin ordinador residia aquell fitxer, i aleshores calia establir comunicació entre tots dos ordinadors. L’exemple típic seria el d’una sucursal de banc accedint a la central, o el de la policia accedint a les dades d’Interpol en connexions bidireccionals unívoques.

Solsona ©maria ivanova

Solsona ©maria ivanova

Amb l’arribada de la web, el focus va passar dels ordinadors hostes als documents, cosa que s’accentuà a mesura que es perfeccionaven els cercadors de webs com el difunt AltaVista, Yahoo o Google. Ara ja no calia saber en quin ordinador residia un document. A més, el nou llenguatge de comunicació que estava darrera de la web, HTML[3] creava una nova realitat, l’enllaç d’hipertext gràcies al qual podem clicar sobre una paraula i això ens condueix a un altre document sobre aquell tema. Avui, una realitat emergent –que va quallant quasi de manera inadvertida per part de l’usuari– és la web semàntica: es tracta d’accedir directament a les dades contingudes en un document, sense necessitat de saber quin és aquest document i molt menys en quin ordinador resideix. És a dir que el nou focus ja no és l’ordinador ni el document, sinó les dades pures.[4]

Posem-ne un exemple: un blogaire escriu un post que conté el llistat dels seus 100 àlbums preferits. Al cap d’un temps prudencial qualsevol cercador com Bing pot localitzar aquest document. Ara bé, la màquina només entén que allò és un seguit de paraules, i no pot destriar quines d’aquestes paraules representen un nom de grup musical, quin és el títol del CD o quina és la discogràfica. Per al cercador tot són paraules, tot és text, perquè fins recentment HTML estava principalment formulat per a presentar text en una pantalla i per a què el llegissin els humans, no les màquines. Aquest fet canvia amb l’arribada de la web semàntica i de les dades enllaçades: ara és possible incrustar en el document web determinats marcadors que advertiran l’ordinador que Art Blakey és una persona i que és l’intèrpret de The Freedom Rider, que és el títol d’un àlbum. A més, el conjunt establirà una connexió lògica entre Art Blakey, els Jazz Messengers, Wayne Shorter i Blue Note Records, gràcies a ontologies[5] i a dades enllaçades que podem extreure de llocs com DBpedia. Ni tan sols caldrà que Wayne Shorter aparegui explícitament en el post de l’esmentat blogaire. Simplement, suposant que les dades que tinguem estiguin marcades amb metadades[6] adequades, organitzades d’acord a ontologies uniformes i enllaçades correctament amb adreces permanents, l’ordinador entendrà que tota aquesta informació tan granular està en relació i actuarà en conseqüència.[7]

Permeti’ns el lector oferir un altre exemple potser menys tècnic. Fa pocs anys, quan anàvem a Google i demanàvem una cerca sobre “Art Blakey”, el resultat era una tirallonga de documents. L’enginy cercador simplement localitzava qualsevol document que contingués les paraules “art” i “blakey”, i això resultava en centenars de milers d’enllaços. No tots eren rellevants: calia que un ésser humà, l’usuari, llegís per sobre i destriés els articles sobre el músic Art Blakey dels altres que contenien referències a “art” o a persones com Morgan Blakey or Michael Blakey. De fa poc temps, el lector haurà notat una transformació: quan comencem a escriure “Art Blakey” al cercador, Google intenta completar-ho i ofereix possibilitats com “Art Blakey discography” per sí mateix. És a dir, Google és prou “intel·ligent” per saber que estem buscant informació sobre un músic. La tirallonga de referències ara és més específica i a la nostra dreta ha aparegut una cosa nova: un requadre amb la foto de Blakey i dades bàsiques extretes de Wikipedia.[8] Aquesta tècnica quasi màgica[9] que fa que les cerques siguin intel·ligents es basa en la web semàntica i les dades enllaçades: el cercador no s’ha limitat a trobar paraules aleatòries, sinó metadades específiques sobre el músic i les seves relacions ontològiques, sense importar de quin document sortissin.

Un altre concepte crucial per a entendre la interacció entre música i web semàntica és l’anomenat àudio semàntic.[10] Com és sabut, la ràpida evolució de l’àudio digital ha fet créixer de manera exponencial les llibreries d’enregistraments en línia. Això es deu a diversos factors, com avenços en la compressió de dades i el streaming,[11] la baixada del cost de produir àudio digital i el fet que cada cop més arxius, biblioteques i fins i tot discogràfiques obren al públic les seves llibreries. Com sabem, resulta impossible contractar una munió de catalogadors humans que escoltin tot aquest àudio i creïn dades sobre autors, títols, característiques tècniques, estil, etc. amb mètodes de biblioteconomia tradicional. El concepte d’Àudio semàntic designa tota una sèrie d’eines i tecnologies que analitzen àudio automàticament i n’extreuen informació per a generar descriptors i metadades d’alt nivell, que arriben a la granularitat d’establir el tempo, tonalitat, progressió harmònica, instrumentació, etc. L’àudio semàntic inclou eines de reconeixement de veu, classificació, recomanació de música basada en característiques determinades, segmentació entre música i paraula, etc.

Les tecnologies d’àudio semàntic ja han sortit de l’entorn del laboratori[12] i comencen a ser aplicades amb èxit en projectes pràctics. Contentus[13] és un exemple d’aquests programes de recerca. Els usuaris d’aquest programa són, entre altres, grans biblioteques, arxius de so, i emissores de ràdio i televisió, entitats amb enormes llibreries d’enregistraments digitals. Les emissores de ràdio, per exemple, sovint depenen de la memòria d’un arxivista per a suggerir la música més adequada per a un programa determinat, o bé disposen d’un sistema de classificació ad-hoc i no necessàriament exhaustiu. L’objectiu és aplicar la tecnologia per a millorar les metadades dels fitxers d’àudio digital o fins i tot crear-les des de zero, tot extraient-les de manera automàtica. Heus ací un exemple: suposem que partim d’un fitxer d’àudio de qualitat però amb poques o cap metadada, de manera que ni tan sols en sabem el títol o l’intèrpret. El mòdul AudioID de Contentus analitza l’enregistrament i el compara amb diverses bases de dades per a identificar de quina cançó es tracta,[14] extreu les metadades de la base de dades i les incrusta en el fitxer. Seguidament el software pot identificar si l’enregistrament consta de parts musicalment diferenciades com per exemple, una introducció simple i tranquil·la seguida d’una part més energètica. A continuació, el programa estableix el tempo, instrumentació, ambient general i fins i tot el tipus de pistes vocals de cadascuna de les parts identificades. Un cop feta aquesta anàlisi, Contentus crea enllaços semàntics entre peces similars pertanyent a la mateixa biblioteca digital basant-se amb les dades extretes i així, peces de tempo o orquestració similar apareixen enllaçades. A més, tant experts catalogadors com simples usuaris de xarxes socials poden afegir informació a les metadades extretes, des de detalls classificatoris fins crítiques personals que enriqueixen els registres. Totes aquestes dades permeten efectuar cerques més intel·ligents, on l’usuari pot, per exemple, trobar una cançó on domini el piano, en un tempo de 75 polsos per minut, i d’un aire classificat com a “trist” en un estil clàssic.

Poques llibreries audiovisuals són tan extenses com la de la BBC, que no només conserva tots els materials que les seves diverses emissores han produït des de la seva fundació en 1922, sinó que a més, continua afegint centenars de nous enregistraments a diari. Fins fa poc, la seva web presentava només part d’aquests enregistraments –principalment els més recents– en HTML estàtic i no enllaçat. Tot fent servir principis i eines de web semàntica, la BBC recentment ha reestructurat la seva col·lecció d’àudio i vídeo fent servir dades enllaçades i, a més, ha posat a disposició del públic un cercador de música enterament basat en tecnologies d’àudio semàntic.[15] L’usuari pot introduir una cançó determinada i el cercador li’n suggereix peces similars i músics del mateix estil, per a generar un play list al seu gust[16]

D’acord a Mark Sandler,[17] investigador lligat a la Queen Mary University de Londres, els actuals avenços en el camp de l’àudio semàntic ens permeten aventurar quins altres desenvolupaments estan preparant-se, i val a dir que els canvis prometen ser revolucionaris. En el mateix moment de fer l’enregistrament en estudi o en viu, podem esperar que el nostre micròfon o l’enregistrador siguin intel·ligents i capturin tot una sèrie de metadades de manera similar a com ja ho fan les càmeres de fotos. Aquestes metadades estaran en estàndards universals que facilitaran la comunicació entre maquinària i software de diferents fabricants. Un cop els músics han entrat a l’estudi d’enregistrament, les eines d’àudio semàntic permetran la comunicació entre sistemes de software que avui són aïllats i permetran la captura de dades relatives a la producció, tals com els tipus de reverberació i equalització amb els seus paràmetres, per cadascuna de les pistes.[18] El músic podrà reutilitzar idèntics efectes en sistemes i enregistraments diferents, perquè estaran al núvol com a dades enllaçades. El proper pas, el de la distribució, també es veurà afectat per la web semàntica: a més de fer la música més localitzable, l’encriptat de totes aquestes metadades addicionals contribuirà a reduït la pirateria. És la idea de valor afegit de la qual hem parlat en ocasions anteriors.[19] Els avantatges pel consumidor són evidents: un enregistrament que contingui metadades enriquides des de la seva producció permetrà configurar l’escolta al gust de l’usuari de maneres avui impossibles: oferir una versió stereo per al cotxe o l’escolta amb auriculars i una altra de multi-canal per a escoltar a casa; possibilitar barreges d’instruments alternatives al nostre gust; aïllar o eliminar un dels instruments per a estudiar la composició o practicar el nostre instrument, o suprimir les pistes vocals.

Totes les propostes de futur de Sandler es basen en tecnologies ja existents. Només caldrà que el seu ús es regularitzi i el seu funcionament es perfeccioni, cosa que previsiblement ocorrerà a mitjà termini. Entretant, la silenciosa revolució del àudio i la web semàntics continuen.

 *  *  *

[1]A manca de divulgació d’aquests termes en català, hem traduït així els conceptes de semantic web, linked data i semantic audio, respectivament.
[2]La invenció del World Wide Web data de 1989, però no es generalitzà fins la segona meitat dels 1990s. Vegeu “History of the web¨, World Wide Web foundation, (2008?), http://webfoundation.org/about/vision/history-of-the-web/ [consultat el 18/01/15].
[3]Llenguatge marcador d’hipertext, la base d’internet, que va començar com a llenguatge encarat a compartir documents electrònics. El nucli d´HTML resideix en l’hipertext, els coneguts enllaços clicables. HTML ha continuat evolucionant i incloent més metadades. Darrell, Robert,“The history of HTML”, Ironspider, 2011   http://www.ironspider.ca/webdesign101/htmlhistory.htm [consultat el 18/01/15].
[4]He d’agraïr el meu col·lega Peter Eichman de la Universitat de Maryland, per formular aquesta succinta però efectiva explicació.
[5]Una ontologia és un sistema de classificació de dades que etiqueta cada entitat amb una categoria (com “obra” “data” o “persona”) i codifica relacions (“es l’autor de”, “fou creat en l’any”). Entre les ontologies més usuals en la Web Semàntica trobem RDF o OWL. Vegeu “Ontologia (tecnologia de la informació)”, Viquipèdia, [http://ca.wikipedia.org/wiki/Ontologia_(tecnologia_de_la_informaci%C3%B3) consultat el 14/01/15]
[6]Dades sobre les nostres dades. Les metadades estan a tot arreu. Quan escoltem un mp3 al nostre reproductor, junt amb les dades d’àudio el fitxer conté metadades que permeten que a la pantalleta hi aparegui el títol de la cançó i l’intèrpret, metadades que estan incrustades en el mp3. A la capçalera de qualsevol document web hi consten les metadades que identifiquen l’autor, l’idioma, les paraules claus, etc. A les metadades d’una foto en jpg hi consten dades sobre la càmera, data, obertura d’objectiu, etc. Vegeu els articles: “Metadades”, Viquipèdia http://ca.wikipedia.org/wiki/Metadades [consultat el 14/01/15]; “ID3”, Viquipèdia http://ca.wikipedia.org/wiki/ID3 [consultat el 14/01/15].
[7]Vegeu Raimond, Yves, “Towards a musical semantic web”, Slideshare, http://www.slideshare.net/moustaki/towards-a-musical-semantic-web [consultat el 18/01/15]. Conté la presentació i notes de la conferència del mateix nom que l’autor presentà a la 122ena convenció de l’AES, Viena, 6 de maig de 2007.
[8]Google anomena aquest requadre informatiu rich snippet. Sobre la tècnica en què es basa aquesta novetat, vegeu Steiner, Thomas, Raphael Troncy i Michael Hausenblas, “How Google is using linked data today and vision for tomorrow”, Research at Google [http://research.google.com/pubs/pub37430.html, consultat el 14/01/15]. Aquest treball fou presentat a la Futur Internet Assembly (FIA), Ghent, Desembre de 2010.
[9]No voldríem atabalar el lector amb explicacions tècniques sobre la mecànica de les dades enllaçades. Tornant a l’exemple de la llista de discs, el dissenyador de la web afegiria dades no visibles, un marcador que atorgués a “Art Blakey” la categoria de “autor” i el lligués a una adreça URL permanent de referència. Existeixen adreces permanents per a noms, categories, relacions, etc. i constitueixen una mena de vocabulari controlat, similar a un fitxer d’autoritats com VIAF. Vegeu per exemple l’adreça permanent que identifica la ciutat de Brussel·les, http://dbpedia.org/page/Brussels. Compareu-la amb el registre d’autoritats d’Art Blakey a VIAF http://viaf.org/viaf/10032579 .
[10]En publicar-se aquestes línies acabarà de concloure la 53ena Conferència internacional sobre aùdio semàntic, de la pàgina de la qual hem extret aquesta definició. Vegeu 53rd International Conference on Semantic Audio”, Audio engineering society, gener 2014, http://www.aes.org/conferences/53/ [consultat el 18/01/15].
[11]Fa anys els fitxers d’àudio eren molt voluminosos. Amb la invenció de formats d’àudio comprimir com mp3 (popularitzat a partir de 1994), de sobte les cançons esdevenien fitxers relativament petits, fàcils de desar i sobretot de compartir. Sobre el tema del streaming vegeu Frau-Cortès, Neil Manel, “Música en l’Era Digital: navegant pels nous corrents del streaming”, Sonograma Magazine, no. 21, gener de 2014, http://sonograma.org/2014/01/musica-en-lera-digital-navegant-pels-nous-corrents-del-streaming/ [consultat el 18/01/15].
[12]Un dels centres investigadors en àudio semàntic més punters es troba al Queen Mary University de Londres. Vegeu la web del seu Centre for Digital Music, http://c4dm.eecs.qmul.ac.uk/ [consultat el 18-01/15]. La segúent presentació inclou enllaços a nombrosos plugins d’àudio semàntic que ja estan a l’abast: “Semantic web and semantic audio technologies”, Isophonics, 2012 http://www.isophonics.net/content/aes132-tutorial [consultat el 18/01/15]. El tutorial fou presentat en forma de conferència a la 132ena convenció de l’Audio Engineering Society, Budapest, 26-29 d’abril de 2012.
[13]Podeu veure una presentació d’aquestes tecnologies a “Mufin’s semantic audio technology”, YouTube, https://www.youtube.com/watch?v=V6o5p1P9n3E [consultat el 16/01/15][14]Aquesta tècnica està ja a l’abast de tothom. Pensem en aplicacions com Shazam, que podem fer servir des del nostre mòbil. Quan sentim una cançó de títol desconegut en un supermercat, per exemple, Shazam ens permet d’apuntar el telèfon a l’altaveu i obtenir el títol de la música. La seva web és http://www.shazam.com/
[15]El cas de la BBC i l’adopció de tecnologies de web semàntica ha generat nombrosos estudis tècnics i articles acadèmics. Vegeu: Raimond, Yves, Tom Scott i altres, “Case study: use of semantic web technologies on the BBC websites”, W3C – Semantic web use cases and case studies, gener de 2010, http://www.w3.org/2001/sw/sweo/public/UseCases/BBC/ [consultat el 16/01/15]; Kobilarov, Georgi, Tom Scott, Yves Raimond i altres, “Media meets Semantic web: how the BBC uses Dbpedia and linked data to make connections”, Derivadow, Juny 2009, http://derivadow.files.wordpress.com/2009/06/eswc2009-bbc-dbpedia-2.pdf [consultat el 18/01/15];
[16]És l’anomenat BBC Playlister (http://www.bbc.co.uk/music/playlister).
[17]Sandler, Mark. Semantic audio: combining semantic web technology with audio analysis, part de la sèrie de conferències CIRMMT Distiguished lectures in the sicence and technology of music, 14 de març de 2013. https://www.youtube.com/watch?v=i_juIZq46gI [consultat el 18/01/15]. El vídeo conté la conferència sencera, una xerrada altament recomanada per al lector interessat en el tema. Ja en 2008 Sandler fou un dels autors d’un article crucial, Raimon, Yves, Christopher Sutton i Mark Sandler, “Automatic interlinking of music databases in the semantic web”, LDOW’08, http://ftp.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-369/paper18.pdf [consultat el 18/01/15]. La presentació fou lliurada al congrés Linked Data On the Web, a Beijing el 28 d’abril de 2008
[18]Les dades obtenibles també inclouen la transcripció automàtica de partitura a partir d’àudio. Vegeu Stables, Ryan, Bretch De Man i altres, “SAFE: a system for the extraction and retrieval of semantic audio descriptors”, Queen Mary University of London, 27 d’octubre de 2014, http://www.eecs.qmul.ac.uk/~josh/documents/Stables%20et%20al%20ISMIR2014.pdf [consultat el 18/01/15].
[19]Concepte encunyat per Kusek i Leonhard. En la seva opinió no té sentit crear sistemes de bloqueig per a què la gent no copiï música de manera il·legal. Més aviat cal que el consumidor vulgui comprar l’original perquè així rebrà un valor afegit (interacció exclusiva amb l’artista, versions alternatives, accés no restringit, etc.) que no obtindrà amb la còpia pirata. Vegeu Kusek, David i Gerd Leonhard, The future of music: Manifesto for the digital music revolution, Boston: Berklee Press, 2005.