Verhuisd



Let op: Neder-L is verhuisd naar www.neerlandistiek.nl

donderdag 24 april 2014

Ontoegankelijke schatkamers

Hoe onderzoeksbronnen op internet verkommeren
Door Marc van Oostendorp


Wie zich nog eens terug wil wanen in de jaren negentig, moet de website van Celex eens bezoeken. Het is voor veel taalkundig onderzoek naar het Nederlands nog steeds een onmisbare bron: een database waar voor tal van woorden is aangegeven hoe ze worden uitgesproken, hoe je ze in lettergrepen kan verdelen en hoe frequent ze voorkomen in het Nederlands.

Honderdduizenden woorden zijn er verzameld, met rijke, rijke informatie over ieder woord. Om te zien hoe vaak een woord eigenlijk voorkomt in het Nederlands is dit nog steeds een van de meest gebruikte bronnen. Vrijwel iedere taalkundige die weleens een getal met cijfers achter de komma heeft opgeschreven, haalde dat getal uit CELEX. Studenten maken er nog steeds gebruik van.

Het is een prachtige bron, maar hij is ongeveer zo toegankelijk als de archieven van het Koninklijk Huis op zaterdagavond.
Het stamt allemaal nog uit de tijd dat degenen die de computer inzetten nog gezellig onder elkaar waren en elkaar dus geen overbodige uitleg verschaften. Heb jij die informatie nodig? Hier heb je haar, en nu verder geen gezeur aan me kop, zie maar wat je ermee doet.

Sindsdien is er niets meer gebeurd met die website, om de gebruikelijke redenen. Het is buitengewoon lastig om een goede en begrijpelijke interface te maken, of zelfs om een handleiding te maken bij die bronnen. En niemand krijgt betaald voor dat werk, niemand kan enige eer behalen uit dat werk. En dus doet niemand er wat aan. Wel stelt de Nederlandse Taalunie voor een torenhoog salaris een hoofd taalinfrastructuur aan, maar geld voor een interface-ontwerper is er niet; ongeveer zoals de NS vergeven is van de directieleden en ceo's, zodat er geen geld meer is om de wissels winterklaar te maken.

Toen ik dit stukje begon te schrijven, tien minuten geleden, was de server nog in de lucht, inmiddels ligt hij plat en kan ik hem niet bereiken. Ik kan dus ook niet voordoen hoe je de informatie eruit haalt, ik kan jullie alleen zelf het bos insturen als iemand op het Max Planck Instituut, waar men zo vriendelijk is een en ander in ieder geval nog op de server te houden, later vandaag, of later deze week de stekker er weer in duwt.

Tot die tijd moeten jullie me maar op mijn woord geloven: Celex zou een van de mooiste bronnen zijn voor het onderzoek naar het Nederlands, of überhaupt voor taalkundigen. Wanneer de weg ernaartoe maar niet zo kapot was en niemand hem wilde maken.

1 opmerking:

  1. Jammer genoeg is Celex intussen al wat gedateerd, zowel qua inhoud en frequenties. Frequenties van sommige woorden of woordvormen zien er vandaag heel anders uit dan toen de database van Celex meer dan twintig jaar geleden ontstond. Daar krijg je al een indicatie van als je vergelijkt met de frequenties die je via Google vindt. Sommige frequenties zijn ook onbetrouwbaar. Dat geldt bijvoorbeeld voor de frequentie van homofone-homografe werkwoordvormen als ‘vermoord’: persoonsvorm en voltooid deelwoord. Beide hebben in Celex dezelfde frequentie. Vermoedelijk heeft men indertijd de totaalfrequentie van werkwoordvormen als ‘vermoord’ vastgesteld en ze nadien netjes arbitrair in twee gedeeld en elke helft toegekend aan de persoonsvorm en het voltooid deelwoord.
    Misschien moet Celex opnieuw samengesteld worden.

    BeantwoordenVerwijderen

Opmerking: Alleen leden van deze blog kunnen een reactie posten.