Verhuisd



Let op: Neder-L is verhuisd naar www.neerlandistiek.nl

dinsdag 30 juni 2015

RE: Echte taaldata

Door Lucas Seuren

Vorige week stelde Marc van Oostendorp ter discussie wat nu zogenaamd echte taaldata zijn. Het ging daarbij grof gezegd om een onderscheid tussen taaldata die gegenereerd worden op basis van intuïtie – bijvoorbeeld, is zin X acceptabel Nederlands/Frans/Swahili volgens een moedertaalspreker? – ten opzichte van taaldata die op een of andere manier ontlokt zijn of spontaan voorkomen – grote corpora van uitingen/zinnen geproduceerd in experimenten of niet-experimentele settings. Wat maakt dat sommige onderzoekers de tweede categorie echte taaldata noemen, maar de eerste niet?

Introspectie

Er zijn twee belangrijke kritiekpunten volgens Marc op de intuïtiedata: we analyseren ons eigen gedrag en we doen dat met zeer kleine steekproeven. Op beide punten hebben de echtetaaldatafanaten (ETDF) natuurlijk wel een punt, zoals Marc ook onderkent in zijn stuk.
Dat introspectie een problematische methode is, is niet nieuw. In de psychologie werd het al decennia geleden ter discussie gesteld en in 1977 concludeerden Richard Nesbitt en Timothy Wilson dat echte introspectie helemaal niet bestaat. Als aan mensen gevraagd wordt waarom een stimulus leidt tot een bepaalde respons, grijpen ze terug op a priori causale verklaringen en ideeën over welke verklaring plausibel klinkt. Mensen hebben geen toegang tot hun hogere cognitieve processen en kunnen dus daarover ook weinig zinnigs zeggen.

Ook de kleinschaligheid van steekproeven is een terecht punt van kritiek. Dat staat natuurlijk in relatie tot het eerste punt: als een persoon een zin onacceptabel vindt, wil dat niet zeggen dat die zin is uitgesloten in de taal. En het oordeel van een kleine groep mensen voegt daar weinig aan toe. Uiteindelijk zijn we op zoek naar een zwarte zwaan: iemand die een zin waarvan we denken dat die onacceptabel is, acceptabel vindt. En zo’n persoon vind je minder snel als je met maar vijf mensen spreekt in plaats van vijfhonderd.

Natuurlijk

Maar een nog veel belangrijke probleem dat ETDF volgens mij hebben met data die gegenereerd is op basis van intuïtie, is dat deze niet natuurlijk is. (We zouden dan ook eigenlijk moeten spreken van NTDF, natuurlijketaaldatafanaten.) Menig theoretisch artikel staat vol zinnen die niet in het wild voorkomen; we kunnen ze genereren, maar we doen het niet.

Hier lonkt een analogie met de scheikunde. Er zijn een boel elementen die in de natuur voorkomen, omdat ze zeer stabiel zijn. Maar daarmee hebben we zeker niet alle elementen gevonden. Door meer protonen aan een atoom toe te voegen – het is uiteraard iets ingewikkelder – kun je nieuwe elementen verkrijgen. Dit zijn nog steeds echte elementen, maar ze komen niet in de natuur voor. Dat wil zeggen, mogelijk worden ze onder de extreme omstandigheden van supernova’s wel gevormd, maar vanwege hun snelle verval moeten ze op aarde in een laboratorium gemaakt worden. Het zijn voor ons dus synthetische elementen.

Als taal op dezelfde manier werkt, dan zijn intuïtiedata of synthetische data noodzakelijk om een complete taaltheorie te kunnen opstellen. Maar als we de analogie doortrekken ontbreekt er nog wel iets: wat is het equivalent van radioactief verval in taal? Met andere woorden, waarom vinden we bepaalde constructies die blijkbaar volgens ons interne taalsysteem mogelijk zijn niet in dagelijkse interactie? En juist daar wringt de schoen; volgens de ETDF zijn dergelijke constructies niet interessant. Veel beter is het om te kijken naar wat ons taalsysteem productief genereert: dus die constructies die we dagelijks gebruiken. En dan is het noodzakelijk om naar natuurlijke data te kijken.

Agnost

Het probleem is dat we niet weten wat taal is. Het zit in de geest, zoals Marc dat zegt, maar wat betekent dat? Genereren we bewust taalconstructies op basis van het systeem dat we geleerd hebben, of hebben we te maken met een onbewust proces van elektrische pulsjes waarvan we pas het resultaat zien als we het externaliseren – als we praten?

Volgens mij zit de waarheid ergens in het midden. Het is aan de ene kant onmogelijk om taal los te zien van zijn gebruiksomgeving, interactie. Evolutie houdt in dat voordelige mutaties zorgen voor een grotere overlevingskans, en taal op zichzelf lijkt die kans niet te vergroten. Pas als we taal zien als een geraffineerd systeem om interactie te ondersteunen, wordt de meerwaarde echt duidelijk. Bijna elke vorm van samenwerking wordt eenvoudiger met taal. Het geeft simpelweg legio meer opties om te communiceren.

Maar dat wil niet zeggen dat synthetische data onbruikbaar zijn in taalonderzoek. Een ander trucje dat de menselijke soort beheerst als geen ander, is de vaardigheid om patronen te zien en te abstraheren. Taal biedt evenmin evolutionair voordeel als er geen structuur zit achter onze taalvaardigheid. Juist door die onderliggende structuur is het eenvoudig om nieuwe constructies te maken en te begrijpen. Synthetische data kunnen inzicht bieden in wat die structuur is en helpen ons daarmee net zo goed als natuurlijke data bij het blootleggen van het onderliggende model. We hebben dus zowel STDF als NDTF nodig. 

4 opmerkingen:

  1. Ik ben het bijna helemaal met je eens (helaas!), behalve misschien met de zinsnede dat 'de waarheid in het midden ligt'. Maar ik denk dat je die misschien ook niet zo bedoelt.

    Het is niet zo dat we een compromis moeten sluiten tussen STDF en NDTF – zo'n compromis is waarschijnlijk ook onmogelijk. Het gaat er eerder om dat we inzien dat taal een meerdimensionaal object is, op de manier die je beschrijft: enerzijds is er een systeem die het mogelijk maakt allerlei bizarre constructies te genereren, anderzijds zijn er evolutionaire principes in de buitenwereld die ervoor zorgen dat sommige van die constructies wel overleven en andere niet.

    Precies in dat licht wordt het ook duidelijk waarom het vreemd is om over 'echte taaldata' te spreken. Dat legt een bepaalde claim over 'echtheid', namelijk dat het succesvol eerst door dat sociale filter moet zijn gegaan. Je komt dan in allerlei verwarrende filosofische discussies terecht over de aard van de werkelijkheid.

    'Natuurlijke taaldata' lijdt ook wel een beetje onder dat probleem: hoezo zijn de zaken die we wel in ons hoofd kunnen vormen niet natuurlijk?

    Pieter Muysken heeft ooit, in navolging van Humboldt, voorgesteld om te praten over binnentaal en buitentaal. Dat vind ik nog steeds wel een goede terminologie. Jouw afkortingen werken helaas dan niet, maar we kunnen praten over BiTDF en BuTDF.

    BeantwoordenVerwijderen
  2. Het verschil tussen binnen- en buitentaal is eigenlijk gemeengoed binnen de generatieve grammatica: waar het bekend staat als I(nternal) en E(xternal)-language. Beiden vormen van taal zijn zonder meer legitieme studieobjecten. Om te verklaren dat de twee talen op sommige punten verschillen hebben we gespecialiseerde deskundigen nodig, waaronder psycho- en sociolinguïsten. Ik ben het dus met Marc eens dat je niet kan stellen dat 'de waarheid in het midden ligt'. Het is net als in de natuurwetenschappen: we moeten eerst een idee hebben over de achterliggende wetten voor we iets zinnigs kunnen zeggen over concrete verschijnselen in de werkelijkheid.

    BeantwoordenVerwijderen
  3. Of beide legitieme studie-objecten zijn, dat staat nogal ter discussie. Binnen de generatieve grammatica heb ik altijd het idee gehad dat alleen I-language interessant gevonden wordt, al is dat ook wel aan het veranderen. Maar op menig congres waar ik kom wordt I-language eerder als mythe gezien, dan als legitiem studieobject. Maar dat is denk ik dan ook waar Marc zijn punt over maakte in zijn column.

    BeantwoordenVerwijderen
  4. Er is inderdaad een traditie binnen de generatieve taalkunde volgens welke alleen de I-taal “interessant” is. De term “interessant” wordt hier echter gebruikt in een zeer speciale betekenis, namelijk als “toegankelijk voor onderzoek”. De gedachte daarachter is dat de studie van E-taal voor het moment te moeilijk is doordat het zicht daarop belemmerd wordt door (te veel en deels onbekende) variabelen. Een neveneffect van dit gebruik van “interessant”, waarin vooral Noam Chomsky excelleert, is dat veel onderzoekers van de E-taal dit (ten onrechte) als een principiële diskwalifatie gevoeld hebben. Het is daarom niet zo heel verbazingwekkend dat dit een zekere polarisatie in de hand gewerkt heeft en dat er (vooral de laatste jaren) teruggeslagen wordt door te stellen dat de I-taal niet meer dan een mythe is. Helaas gebeurt dit laatste vaak zonder kennis te nemen van de niet zelden verbluffende empirische resultaten van het onderzoek naar I-taal.

    Dit werkt natuurlijk contraproductief: het wordt tijd dat generatief taalkundigen zich de vraag stellen of E-taal inderdaad nog steeds niet interessant is (in de technische zin van het woord) en dat onderzoekers naar E-taal eens kijken of het onderzoek naar I-taal geen bruikbare inzichten heeft opgeleverd.

    Zoals je terecht opmerkt is er inderdaad een verandering gaande bij generatief taalkundigen. Dit heeft onder meer te maken heeft met de toenemende belangstelling voor microvariatie, maar vooral ook met het streven het interne taalsysteem zo “minimaal” mogelijk te maken, waardoor beter gekeken moet worden naar de gebruiksvoorwaarden van de door het taalsysteem voortgebrachte zinnen. Of onderzoekers naar E-taal ook bereid zijn te kijken naar de resultaten van het onderzoek naar I-taal is voor mij nog de vraag. Dat de generatieve gemeenschap zijn resultaten wel graag beschikbaar wil stellen voor deze onderzoekers blijkt wel uit de binnen generatieve kring breed gedragen “Syntax of Dutch” (verschenen bij AUP maar ook gratis te downloaden via Oapen.org en vanaf 2016 toegankelijk via taalportaal.org), waarin deze resultaten op een gemakkelijker toegankelijke manier gepresenteerd worden.

    BeantwoordenVerwijderen

Opmerking: alleen leden van deze blog kunnen een reactie plaatsen.