Digitaal opnemen van geluid
Opnametechniek van geluid gaat gepaard met veel jargon. In dit blog leg ik in begrijpelijke taal uit hoe geluid digitaal wordt opgenomen en welke invloed bitdiepte en samplefrequentie hierop hebben. Ook leg ik uit wat 32-Bit floating point audio is, hoe het werkt en wat het anders maakt dan de bestaande 16 en 24-bit. En of je het al dan niet nodig hebt.
Analoog versus digitaal
Een computer heeft geen oren en kan niet luisteren naar muziek op de manier zoals wij dat doen. Om een computer geluid te kunnen laten begrijpen moet het eerst worden omgezet naar een digitaal signaal. Dit proces wordt gedaan door de analoog-digitaal omzetter (AD-converter) die in opnameapparatuur zit ingebouwd. Het geluid wordt dan omgezet naar voor computers leesbare bits.
Een bit is de kleinste vorm van informatie en kan twee waarden aannemen: uit of aan, ja of nee, hoog of laag et cetera. In het binaire stelsel wordt dit voorgesteld met de cijfers ‘0’ en ‘1’ waarbij de 0 dan bijvoorbeeld ‘nee’ betekent en de 1 ‘ja’. Dit vormt de basis van digitaal geluid.
Waar een bit slechts twee waarden kan aannemen, kan een analoog signaal álle waarden aannemen. Een voorbeeld van analoge weergave is een klok met wijzers. De stand van de wijzers is analoog aan de tijd. Bij een digitale klok wordt de tijd in cijfers weergegeven. Geluid zoals wij het horen is analoog: het is een directe representatie met een oneindige resolutie (de beperkingen van ons eigen gehoor buiten beschouwing gelaten) en kent een traploos en ononderbroken verloop. Bij het converteren naar digitaal geluid zal het aantal bits bepalen hoe nauwkeurig het analoge signaal wordt gekopieerd.
In het algemeen kun je stellen: hoe meer bits, hoe beter de kopie.
Samplefrequentie
Bij het bepalen van het aantal bits komt de term samplefrequentie (‘sample rate’ of bemonsteringsfrequentie) om de hoek kijken. Samplefrequentie geeft aan hoe vaak per seconde het analoge signaal wordt omgezet naar een digitaal signaal. Hoe hoger de samplefrequentie, hoe meer digitale informatie er ontstaat. Je kunt het vergelijken met filmen in een lage resolutie of in 4K: wat je filmt is in beide gevallen gelijk, maar in een lage resolutie krijg je een korrelig mozaïekbeeld, terwijl 4K heel scherp en gedetailleerd wordt weergegeven.
Samplefrequentie wordt uitgedrukt in kilohertz (afgekort kHz). Neem je op in 48 kHz, dan sla je elke seconde 48.000 samples op. Hoe hoger de samplefrequentie, hoe meer informatie, hoe beter de opname.
Bitdiepte
Naast samplefrequentie speelt bitdiepte een belangrijke rol bij geluidsopname.
Daar waar samplefrequentie iets zegt over de hoeveelheid informatie die wordt opgeslagen, zegt bitdiepte iets over het verschil tussen het luidste en zachtste geluid, het zogeheten dynamische bereik. Hoe groter het dynamisch bereik, hoe meer stapjes er zitten tussen het zachtste en luidste geluid.
CD-kwaliteit is gebaseerd op 16-Bit audio. Dat levert een maximaal dynamisch bereik van 96,3 decibel (dB) op, terwijl 24-Bit audio (ook wel ‘high resolution audio’ genoemd) tot 144,5 dB gaat.
Om je een idee te geven hoeveel decibel een bepaald geluid veroorzaakt: een donsveertje dat je langs je wang strijkt, produceert ongeveer 0,5 dB. Waarschijnlijk kun je het niet horen, maar het maakt wel degelijk geluid.
Een geweerschot produceert – afhankelijk van het kaliber – een geluid met een sterkte van ongeveer 150 dB.
Een goed functionerend menselijk gehoor kan geluiden horen van 0 tot 140 dB. Je kunt dus zeggen dat het dynamisch bereik van het menselijk gehoor reikt tot 140 dB.
Dat betekent niet dat er boven 140 dB geen geluid meer is, alleen dat wij het niet meer kunnen horen (of kunnen onderscheiden van een zachter geluid). En het betekent ook niet dat we altijd behoefte hebben aan zoveel mogelijk dynamisch bereik. Bij praatprogramma’s op de radio wil je juist weinig dynamisch bereik omdat het prettig is om te luisteren naar een gelijk en redelijk constant stemvolume. Zachte stemgeluiden worden dan versterkt tot een bepaald luisterniveau en luide stemgeluiden worden teruggebracht. Het dynamisch bereik wordt dus bewust kleiner gemaakt, veelal met gebruik van een compressor.
Het dynamisch bereik van ons gehoor ligt zogezegd bij 140 dB, maar de pijngrens ligt bij 120 dB, de schadegrens bij 105 dB en de gevarengrens zelfs al bij 90 dB. Meer dynamisch bereik betekent dus niet automatisch dat het beter (of nodig) is, slechts dat er meer stapjes zitten tussen het zachtste en luidste geluid dat wordt opgenomen.
Audio clipping
We weten nu welke invloed samplefrequentie en bitdiepte hebben op de kwaliteit van digitaal geluid.
Waar ze geen invloed op hebben is de hoeveelheid analoog signaal dat door het opnameapparaat wordt opgepikt. Dit is iets wat je zelf moet instellen bij 16 en 24-Bit. Dit doe je met de input-knop (ook wel gain-knop genoemd) van je opnameapparaat. Hoe lager de input, hoe minder sterk het signaal door de AD-converter gaat.
Om een goede digitale opname van het eerder genoemde donsveertje te verkrijgen zul je deze met aanzienlijk meer input moeten opnemen dan het geweerschot.
De inputmeters worden op de meeste apparaten weergegeven in drie kleuren: groen, oranje en rood. Rood betekent dat het analoge signaal zó luid binnenkomt dat het overstuurd en beschadigd wordt opgeslagen.
0 dBFS (Decibels relative to Full Scale) is de maximum waarde waarop je audio nog onbeschadigd kunt opslaan. Gaat het analoge signaal voorbij dit punt dan wordt het dynamisch bereik overschreden en treedt er een verschijnsel op dat clipping audio wordt genoemd. Clipping betekent dat de pieken van de geluidsgolf worden afgevlakt. Bij clipping audio raakt geluid onherstelbaar beschadigd en hoor je een krakend, onaangenaam geluid. Luister naar dit muziekfragment of deze spraakopname om te horen hoe dat klinkt.
Bij opnames zoek je naar het punt waarbij het inputsignaal niet het clipping punt van 0 dBFS overschrijdt, maar ook weer niet te zacht is. Als je analoog geluid in plaats van te luid te zacht opneemt, krijg je problemen als je het tijdens de nabewerking versterkt tot het gewenste luisterniveau. Je trekt dan onbedoeld ook alle omgevingsgeluiden omhoog, waardoor je in je opname ineens duidelijk het geluid van bijvoorbeeld de airconditioning of rijdende auto’s in de straat terughoort.
Dit zoeken naar een acceptabel inputsignaal wordt ook wel headroom genoemd: een veiligheidsmarge tussen het punt van clipping en het punt waarop het signaal te zacht wordt. Sturen op -12 dBFS (de oranje gekleurde meters) is vaak een prima uitgangspunt.
Kleuren de meters oranje bij het donsveertje, dan zullen ze donkerrood kleuren bij het geweerschot als je het input-signaal tussentijds niet wijzigt.
Het bepalen van een correct inputsignaal is dan ook zeer belangrijk als je opneemt in 16 of 24-Bit: wijzigt de geluidsbron, dan wijzigt het analoge signaal. Binnen een zekere bandbreedte is dat geen probleem maar wordt het verschil te groot, dan zul je de signaalsterkte moeten aanpassen.
32-Bit float audio
Eén van de nieuwste vindingen op het gebied van opnametechniek is 32-Bit floating point (32 bits drijvende/zwevende kommagetallen). Dit werkt iets anders dan bij 16 en 24-Bit.
Bij 16 en 24-Bit zijn alle bitwaarden lineair en zitten ze in een bepaald bereik. Met andere woorden: de bitwaarden die het dynamisch bereik bepalen, vertegenwoordigen allemaal een deel van het totaal hiervan. Er is maar één AD-converter om het analoge signaal om te zetten naar digitaal.
Bij 32-Bit float zijn het er (minimaal) twee: één converter richt zich op de zwakke (zachte) signalen, de andere op de sterke. En de bitwaarden zijn níet gefixeerd: ze zweven en allemaal kunnen ze elk deel van het onwaarschijnlijke dynamisch bereik van maar liefst 1528 dB (+770 tot -758 dB!) vangen, iets wat bij lineaire bitwaarden onmogelijk is.
Puur binair gecodeerd kun je van bits alleen hele getallen maken (de eerder genoemde 0 of 1). Je kunt er geen kommagetal (een getal met één of meer cijfers achter de komma, bijvoorbeeld 1,5) mee weergeven.
Bij 32-Bit float kan dit wel. Floating betekent dat de komma niet op een vaste positie staat maar kan zweven, bijvoorbeeld 1,88482 of 188,482 of 18848,2. Er staan geen vast aantal cijfers voor of na de komma. Dit betekent dat alle bitwaarden zich zowel kunnen richten op de zwakke- alsook op de sterke signalen, afhankelijk van wat er nodig is op basis van het op dat moment binnenkomende analoge signaal.
32-Bit float heeft hiermee als voordeel dat het een veel groter bereik aan waarden kan vertegenwoordigen dan het lineaire 16 en 24-Bit.
Ter illustratie: het luidste geluid op aarde ooit gemeten was de uitbarsting in 1883 van de vulkaan Krakatau in Indonesië, die een ontzagwekkend geluid van maar liefst 172 dB (!) produceerde. Deze catastrofale explosie veroorzaakte schokgolven die 3½ keer de aarde rond gingen. Boten die in de buurt voeren werden door de enorme golven kilometers landinwaarts geslingerd. Naar verluidt werden alle mensen die zich binnen een straal van 150 kilometer van de vulkaan bevonden acuut doof. De explosie werd gehoord door mensen die ruim 5000 kilometer verderop woonden. Zij gaven aan dat het klonk als geweerschoten in de verte.
Een bereik van -758 tot +770 dB is dan ook bijna niet voor te stellen. Als je erover nadenkt is het zelfs onzinnig omdat natuurkundig gezien 194 dB het luidste geluid is dat je in vrije lucht kunt meten. Zoals water niet meer kan stromen als het bevriest, zo worden alle luchtmoleculen vanaf 194 dB samengedrukt en kan het geluid zich niet verder ontwikkelen. En áls het al zou kunnen, zou deze extra energie het geluid niet verder versterken maar eerder een schok veroorzaken.
De beperking is dus altijd de analoge input: dergelijke extreme waarden kunnen niet door mensen worden gecreëerd. Maar zóu het mogelijk zijn, dan kan 32-Bit float het zonder problemen vertalen naar een digitaal signaal, daar waar 16 en 24-Bit dat niet kunnen.
Waarom opnemen in 32-Bit float?
32-Bit float geeft je meer vrijheid, zowel tijdens opnames als bij de latere editing.
Omdat het dynamisch bereik van 32-Bit float praktisch oneindig is, neem je hiermee zowel de zachtste als luidste geluiden probleemloos op. Het zoeken naar de eerder genoemde headroom is bij 32-Bit float niet meer nodig. Je hoeft je geen zorgen meer te maken of je de input wel goed hebt ingesteld. Sterker, sommige opnameapparaten met 32-Bit float support hébben zelfs geen input-knop meer.
Daar waar het bij 16 of 24-Bits opnameformaat niet mogelijk is om geclipte audio te herstellen, kun je bij 32-Bit float alle informatie terughalen: als je het overstuurd opgeslagen signaal in de editing software terugbrengt, zie je dat de afgevlakte toppen op een zeker moment verdwijnen en de waveform weer compleet en intact zichtbaar wordt. Bij het normaliseren van de opname wordt het oorspronkelijke geluid zonder degradatie gereproduceerd: er gaat geen informatie verloren en er wordt niets kunstmatig gerepareerd.
Bovendien geldt ook dat als je geluiden heel zacht opneemt, je deze achteraf kunt versterken, zonder dat je de zogeheten noise floor (ruisvloer) mee omhoog brengt.
Heb je 32-Bit float altijd nodig?
Nee, zeker niet. Bij het opnemen van spraak of situaties waar het geluidsniveau steeds redelijk gelijk en/of voorspelbaar is, kun je prima uit de voeten met 16 of 24-Bit.
Maar als het dynamisch bereik enorm schommelt of onvoorspelbaar is, dan is 32-Bit float audio een uitkomst. Je hoeft dan niet steeds de geluidsmeters in de gaten te houden en ook achteraf niet bang te zijn dat je opnames zijn mislukt.
Kan er met 32-Bit float nooit meer iets fout gaan?
Was dat maar zo. 32-Bit float geeft je weliswaar veel mogelijkheden om achteraf aanpassingen te doen, het is daarmee nog geen garantie voor foutloze opnames. Het kiezen van de juiste kwaliteitsmicrofoon (en het zo goed mogelijk positioneren ervan) alsook de opnames mooi mixen blijft mensenwerk. Ook zal 32-Bit float je bij live-registraties niet helpen want dan is de editing realtime. En heb je storende bijgeluiden tijdens de opname vastgelegd, dan is 32-Bit float geen wondermiddel waarmee je dit weg kunt poetsen.
Met welke bitdiepte of samplefrequentie je ook opneemt, in alle gevallen geldt het aloude principe: slechte input geeft slechte output.
Maar wat 32-Bit float wezenlijk anders maakt is dat je geluid in feite niet te luid of zacht kunt opnemen. Je hoeft je nooit meer zorgen te maken over clipping, de juiste hoeveelheid headroom of een te zwak inputsignaal. Neem je op in 16- of 24-bit en komt je signaal voorbij het punt van clipping (0 dBFS), dan zit de geluidsvervorming onomkeerbaar ingebakken in je opname.
Bij 32-bit float is het geluid ook vervormd maar níet ingebakken: je kunt het signaal achteraf bij de editing terugbrengen want alle broninformatie is compleet en onbeschadigd. Kort gezegd kun je stellen dat je bij 16- of 24-bit het inputsignaal vooraf moet bepalen, terwijl je dit bij 32-bit float achteraf kunt doen.
Onder 32-Bit float kan je dus een veel breder scala aan audio-waarden opnemen. Dit maakt het dan ook een ideaal opnameformaat.
Ik hoop dat je dit blog leuk en leerzaam vond.
Heb je vragen of is iets niet duidelijk, laat het me weten!