Verhuisd



Let op: Neder-L is verhuisd naar www.neerlandistiek.nl

zaterdag 8 februari 2014

De stijlcomputer

Door Marc van Oostendorp





Hoe moet je schrijven? Dat is de vraag die ik tot de vraag van het jaar heb uitgeroepen. Ik neem schrijfles, maar leg natuurlijk ook mijn oor te luisteren bij de wetenschap.

Nu opgelet, want in het kader van de leesbaarheid komt er een lange zin. Een aantal onderzoekers bij de afdeling informatica van de universiteit in Stony Brook hebben het probleem opgelost en zij hebben een computerprogramma ontwikkeld dat automatisch kan bepalen hoe 'succesvol' een tekst zal zijn aan de hand van een aantal stijlkenmerken en nu hoef je dus alleen maar ervoor te zorgen dat je die stijlkenmerken toepast om ervoor te zorgen dat je stijl voortaan succesvol is en 'succesvol' is door de onderzoekers gedefinieerd in termen van hoe vaak je gedownloaded wordt op de website van Gutenberg – en wie wil er nu niet vaak worden gedownloaded op de website van Gutenberg.

Een van de dingen die dus werkt, volgens die onderzoekers, is dat je vaak de woorden en, maar en of gebruikt. (Het echte artikel vind je door hier te klikken; het artikel begin op pagina 1745.)


De onderzoekers beweren dat zij de eersten zijn die 'this unstudied and unexpected connection between stylistic elements and the literary success' hebben bestudeerd. Zouden ze echt denken dat nog nooit iemand op het idee is gekomen dat het succes van een boek weleens met de stijl te maken zou kunnen hebben? Laten we hopen dat ze eigenlijk willen zeggen dat ze dit voor het eerst op deze manier hebben onderzocht. De methode is eenvoudig. Het succes van een roman wordt dus bepaald door hoe vaak hij geraadpleegd is op Gutenberg. De stijl wordt bepaald door allerlei telbare dingen: de frequentie van nevenschikkende voegwoorden en andere woordsoorten.

Zelfstandig naamwoorden zijn goed voor de downloadbaarheid, werkwoorden zijn slecht. En onder de werkwoorden zijn woorden die handelingen en gevoelens uitdrukken (vechten, huilen, afpakken) slechter dan woorden die gedachteprocessen uitdrukken (denken, peinzen).

Toch durf ik te voorspellen dat een willekeurige tekst niet ineens populairder wordt door hem naar hartelust met bijvoeglijk naamwoorden te larderen, zelfs niet als je de aller-allerbest werkende adjectieven neemt.Het is interessant om na te denken over wat er mis is: het team uit Stony Brook meent dat het feit dat zij correlaties gevonden hebben tussen de hoeveelheid naamwoorden en de dowyloadbaarheid, ook meteen een feit is. Teamleidster Choi praat in het interview aldus over haar bevindingen:

Previous work has attempted to gain insights into the 'secret recipe' of successful books. But most of these studies were qualitative, based on a dozen books, and focused primarily on high-level content -- the personalities of protagonists and antagonists and the plots. Our work examines a considerably larger collection -- 800 books -- over multiple genres, providing insights into lexical, syntactic, and discourse patterns that characterize the writing styles commonly shared among the successful literature.
Het is zoals de onderzoeker die statistisch vaststelt dat de zon altijd opkomt nadat de haan heeft gekraaid en nu zegt voor het eerst wetenschappelijk, want op basis van heel veel meetpunten, te hebben vastgesteld dat de haan de zon doet opkomen. De feitelijke relatie is veel complexer, en wel op een manier die je misschien wel beter aan de oppervlakte kunt krijgen aan de hand van a dozen books.  

8 opmerkingen:

  1. ?
    1. Een aantal [...] heeft
    2. Een van de dingen die dus werken

    BeantwoordenVerwijderen
    Reacties
    1. Dit is de mysterieuste reactie ooit! Nieuwe sport: anoniem zinsdelen citeren?

      Verwijderen
  2. Nou, mysterieus, dat valt nogal mee vind ik. Anoniem heeft waarschijnlijk kritiek op een stijlkenmerk dat ook mij opviel, het afwijken van het gebruik om van een werkwoord dat bij een enkelvoudig onderwerp behoort ook de enkelvoudige werkwoordsvorm te bezigen zoals u doet in de zin waarvan u terecht waarschuwt voor de lengte en die begint met het naar ik meen dat het onderwerp is 'Een aantal onderzoekers' en waarbij 'een' een enkelvoud suggereert waarop een meervoudige werkwoordsvorm volgt 'hebben het probleem opgelost'. Dat u dit bewust toepast behoort zeker tot de mogelijkheden want in de alinea voor het lange zin citaat schrijft u 'het team uit Stony Brook meent dat het feit dat zij correlaties gevonden hebben' waarbij dit 'hebben' in combinatie met 'Het team' opvalt. Maar als voormalig tekstredacteur maak ik mij meer over die vergeten spatie, niet eens een fout, maar gewoon vergeten. Overigens ben ik van mening dat 2014 het jaar van de puntkomma moet worden, of het jaar van de lange zinnen.

    BeantwoordenVerwijderen
    Reacties
    1. Dank u wel. Ik vraag me altijd af waarom iemand anoniem zijn gebrek aan inzicht in de Nederlandse taal wil etaleren. U doet dit tenminste nog onder uw eigen naam. De gedachte dat goede stijl impliceert dat je je aan tot in het absurde gedreven regels van overgesplimplificeerde logica zouden moeten houden, is natuurlijk volkomen absurd. Uw streven naar meer puntkomma's en langere zinnen onderschrijf ik aan de andere kant volkomen.

      Verwijderen
  3. "Maar als voormalig tekstredacteur maak ik mij meer over die vergeten spatie, niet eens een fout, maar gewoon vergeten". Voormalig tekstredacteur, u bent uw zorgen in deze zin vergeten.

    Wat jammer dat er niet inhoudelijk op de blogpost van Marc van Oostendorp wordt gereageerd, die naar mijn mening een zeer interessante bespreking geeft van het artikel van Choi en Feng. Hun onderzoek is gerelateerd aan een project waaraan ik meewerk, waarin we ook op een computationele manier onderzoek doen naar literaire en goede (of niet zo literaire en slechte) stijl. De Sony Brook-onderzoekers hebben een interessante methode ontwikkeld voor het meten van een aantal stijlgerelateerde kenmerken in succesvolle boeken (waarbij de vraag is of het aantal downloads op Gutenberg de juiste maat voor succes is), maar inderdaad zijn zinsoverstijgende kenmerken van romans, zoals plot, pesonages en semantiek voor dit tekst-intrinsieke onderzoek van minstens zo groot belang. Deze laatstgenoemde kenmerken zijn helaas aan de hand van computationele methoden minder makkelijk "objectief" te onderzoeken dan de syntactische en lexicale kenmerken. Volgens mij presenteren de onderzoekers overigens geen causale relatie tussen de gevonden patronen en succesvolle boeken, maar een patroon dat lijkt te correleren met de maat die zij voor succes hebben vastgesteld.

    BeantwoordenVerwijderen
  4. De vraag die Marc heel tactvol stelt zonder 'm te stellen is natuurlijk: wat hebben we er precies aan om een lijstje te hebben van woordgroepen die net iets vaker voorkomen in de meer gedownloade boeken, zeker als het gaat om zulke algemene dingen als de frequentie van "in" en het voorkomen van naamwoordgroepen.

    Hoewel de onderzoekers in het persbericht met de mond belijden dat correlatie nog geen causatie is, komt de taal van hun artikel er wel erg dichtbij: zo rept de samenvatting van een kwestie die van belang is voor "publishers and aspiring writers alike", wat duidelijk de gevolgtrekking uitnodigt dat de resultaten niet alleen betrekking hebben op al bestaande boeken (correlatie), maar ook op nog te schrijven boeken (causatie).

    Het grootste probleem, zoals altijd in dit soort studies, is dat er teveel 'degrees of freedom' zijn in de statistische analyse. Elke studie die een grote dataset combineert met eens veel variabelen is als een appelboom vol rijpe en bijna-rijpe appels: iedereen die schudt kan resultaat claimen, maar niet elk resultaat is significant.

    De kunst is om van tevoren te voorspellen welke appels rijp zouden moeten zijn volgens je theorie, en om dan heel voorzichtig te schudden, één keertje maar; en om dan heel eerlijk te kijken welke appels er vielen, en of dat degene zijn die je ook voorspelde.

    Net zo belangrijk is het om de verleiding te weerstaan om achteraf je voorspelling bij te stellen (= 'p-hacking'), of om nog een paar keer te schudden totdat de juiste appels gevallen zijn (= 'multiple testing'). Elke studie die niet dit soort maatregelen neemt verdient het behandeld te worden als een rotte appel.

    BeantwoordenVerwijderen
  5. PS Hier is een directe link naar een PDF van het (proceedings-)artikel: http://aclweb.org/anthology//D/D13/D13-1181.pdf

    BeantwoordenVerwijderen
    Reacties
    1. Dank! Ook voor je reactie hierboven. Het heeft me veel tijd gekost om eerst die hele bundel te downloaden en dan dat artikel op te zoeken. Dat kon dus veel sneller!

      Verwijderen

Opmerking: alleen leden van deze blog kunnen een reactie plaatsen.