Premium

Plagiaatbestrijding en analyse van oude bijbelvertalingen

Computatiohele tekstvergelijking in onderwijs en onderzoek

1. Plagiaatbestrijding: computationele tekstvergelijking in het onderwijs

Het woord ‘plagiaat’ wordt tegenwoordig in allerlei contexten gebruikt. Het duikt bijvoorbeeld regelmatig op in krantenkoppen, zoals: ‘Toespraak van Canadese premier blijkt plagiaat’,
[1]Trouw, 2 oktober 2008.
‘Burgemeester van Maasdriel plagieert ambtsgenoot Thom de Graaf,
[2]Trouw, 10 januari 2008.
‘Wendy van Dijk beschuldigd van plagiaat’,
[3]De Telegraaf, 26 maart 2008.
‘Dieetgoeroe Sonja Bakker pleegt plagiaat’,
[4]De Telegraaf, 19 september 2006.
‘Hema beticht Blokker van plagiaat’,
[5]Trouw, 17 juli 2006.
‘Ontwerp Freedom Tower New York is plagiaat’.
[6]De Telegraaf, 9 november 2004.
Dit veelvuldige en veelzijdige gebruik van ‘plagiaat’ roept de vraag op wat er met dit woord precies wordt bedoeld. Sandra van Nieuwkerk geeft de volgende definitie:

Het zonder aanmerkelijke aanpassingen en zonder bronvermelding overnemen van (delen van) oorspronkelijke teksten van derden en de aldus verkregen ‘nieuwe’ tekst presenteren als zijnde eigen werk.

[7]
Alhoewel deze definitie in veel gevallen zeer bruikbaar is, moet worden opgemerkt dat ‘plagiaat’ niet alleen gebruikt wordt voor teksten, maar ook voor mode-ontwerpen (Wendy van Dijk), diëten (Sonja Bakker), tuinproducten (Hema versus Blokker) en architectuurontwerpen (Freedom Tower).
[8]
In het Hoger Onderwijs krijgt de bestrijding van plagiaat steeds meer aandacht. Algemeen bestaat het beeld (terecht of ten onrechte, daar wil ik nu niet op ingaan) dat leerlingen die door het studiehuis worden afgeleverd, zeer bedreven zijn in het knippen en plakken van teksten van internet en er geen kwaad in zien het resultaat als eigen werkstuk in te leveren. Deze werkwijze strookt echter niet met de academische kritische zin die de instellingen voor Hoger Onderwijs hun studenten proberen bij te brengen.

Ook in een onderwijscontext het begrip plagiaat op verschillende manieren gedefinieerd worden. Wie een werkstuk van een ander kopieert en daar zijn eigen naam onder zet, pleegt ondubbelzinnig plagiaat, maar er zijn ook subtielere vormen van plagiaat. Iemand bijvoorbeeld een tekst ovememen van een ander en deze zodanig bewerken dat de overeenkomsten met de oorspronkelijke tekst minder in het oog lopen. Juridisch zou men zich kunnen indekken tegen de beschuldiging van plagiaat door de overgenomen teksten te voorzien van aanhalingstekens en een bronvermelding. De academische vorming die universiteiten hun studenten willen geven gaat echter verder dan het omzeilen van plagiaat in de strikte juridische zin.

Veel instellingen voor Hoger Onderwijs hebben in de laatste jaren anti-plagiaatbeleid ontwikkeld. Dit betreft enerzijds het duidelijk maken aan studenten wat er van hen verwacht wordt en welke eisen van originaliteit er gesteld worden aan de stukken die zij inleveren, en anderzijds het ontwikkelen van methoden om plagiaat op te sporen. Voor dit laatste wordt gebruik gemaakt van anti-plagiaatsoftware. plagiaat te kunnen opsporen meet deze software de mate van overeenkomst tussen een werkstuk dat wordt ingeleverd en andere teksten, waaronder werkstukken die door anderen zijn ingeleverd en het volledige internet.

De manier waarop deze computerprogramma’s overeenkomsten tussen teksten meten is zeer complex. Ze kijken naar woorden, naar de volgorde waarin deze voorkomen, en naar hun frequentie. Doordat er met al deze parameters rekening wordt gehouden, zal enkel en alleen het veranderen van de volgorde van woorden of het vervangen van het ene woord door het andere niet helpen om aan de plagiaatdetectie te ontkomen.

Overeenkomsten tussen een werkstuk en een ander werkstuk, of tussen een werkstuk en een tekst op internet, moeten niet alleen gemeten, maar ook gewogen worden. Woorden die vaak voorkomen, zoals lidwoorden en voegwoorden, hebben een zeer laag gewicht. Een hoge frequentie van de bepaalde lidwoorden ‘de’ en ‘het’ in het ene werkstuk vormt nog geen aanwijzing dat dit werkstuk is overgeschreven van een ander werkstuk waarin deze lidwoorden ook vaak voorkomen. Woordtypen die minder vaak voorkomen hebben een hoger gewicht, maar ook die zijn op zichzelf lang niet altijd doorslaggevend. Wie een hele groep studenten vraagt een werkstuk te maken over er zeker van zijn dat in ieder werkstuk de naam van Immanuel Kant voorkomt. Dat is een overeenkomst, maar vormt geen aanwijzing dat er sprake is van plagiaat. Dat geldt zelfs voor een complete zin als ‘Aufklärung ist der Ausgang des Menschen aus seiner selbst verschuldeten Unmündigkeit’. Het aardige is wel dat een dergelijk verschijnsel omgekeerd ingezet kan worden: als er onder de vijftig werkstukken twee zijn die Immanuel Kant niet noemen en het woord ‘onmondigheid’ niet gebruiken, komen die twee onder de verdenking te staan dat de een van de ander is overgeschreven.

Het voorafgaande betekent niet dat de computer plagiaat vaststellen. Het enige wat de computer doen is een percentage van overeenkomsten geven, berekend volgens een ingewikkelde verzameling van parameters. De vaststelling dat er sprake is van plagiaat ligt uiteindelijk bij de docent.

2. Computationele tekstvergelijking in filologisch onderzoek

De titel van dit artikel spreekt niet alleen over ‘plagiaatbestrijding’ en ‘onderwijs’, maar ook over ‘analyse van oude bijbelvertalingen’ en ‘onderzoek’. Het vergelijken van parallelle teksten vormt een van de kernactiviteiten van de filologische bestudering van antieke teksten, waaronder de Hebreeuwse bijbel en oude bijbelvertalingen. Evenals bij het opsporen van plagiaat wordt ook bij deze analyse van parallelle teksten tegenwoordig veel gebruik gemaakt van de computer. Dit gebeurt onder andere in het onderzoeksproject dat ondergetekende leidt, getiteld ‘Turgama: Computer-Assisted Analysis of the Peshitta and the Targum’. ‘Turgama’ is een Syrisch woord dat zowel ‘vertaling’ als ‘interpretatie’ betekent. Dit woord is gekozen als titel van hetproject omdat het project zich bezighoudt met de wisselwerking tussen het ‘vertalen’, het overzetten van een tekst van de ene taal in de andere, en de ‘interpretatie’ van de vertalers, de betekenis die zij aan de tekst toekennen. We hebben voor een Syrisch woord gekozen omdat het project een computerondersteunde analyse betreft van de Syrische vertaling (Peshitta) van het bijbelboek Richteren. Deelprojecten betreffen de analyse van de Joods-Aramese vertaling (Targum) van Richteren, alsmede de analyse van een stuk oorspronkelijk Syrisch, namelijk Het Boek van de Wetten der Landen٠
[9]
Het lijkt nu misschien of ik van de anti-plagiaatsoftware in de eerste paragraaf van deze bijdrage ben overgestapt naar een heel ander onderwerp, de bestudering van oude bijbelvertalingen. Ik wil in dit artikel echter laten zien dat er veel dwarsverbanden bestaan tussen de anti-plagiaatsoftware waarover ik het in het voorafgaande heb gehad en de computer-ondersteunde tekstvergelijking zoals die wordt toegepast in het Turgama-project.

In het voorafgaande heb ik kort aangegeven hoe in de plagiaatbestrijding de computer gebruikt wordt om overeenkomsten tussen teksten te meten. Een hoge mate van overeenkomst is een aanwijzing dat er mogelijk sprake is van een afhankelijkheidsrelatie tussen deze teksten. Met afhankelijkheid bedoelen we dan dat de schrijver van de ene tekst gebruik heeft gemaakt van de andere tekst. Op dezelfde manier wordt de computer ingezet bij de bestudering van oude bijbelteksten. Voordat ik op deze dwarsverbanden inga, is het nuttig eerst nog wat nader in te gaan op het belang van de analyse van parallelle teksten voor de oudtestamentische wetenschap.

3. Parallelle teksten in het Oude Testament

De studie van parallelle teksten is een fundamenteel onderdeel van de bijbelwetenschappen. Tradities werden overgeleverd; verhalen werden doorverteld; literaire bronnen werden opgenomen in een nieuwe context; teksten werden geredigeerd, gekopieerd en vertaald. Al deze processen hebben geleid tot een rijke verscheidenheid aan parallelle teksten, die zich uitstrekken over eenglijdende schaal van vrijwel identieke teksten tot teksten die slechts in de verte op elkaar lijken.
[10]
Het bekendste voorbeeld van parallelle teksten is waarschijnlijk dat van de vier evangeliën uit het Nieuwe Testament, maar ook het Oude Testament bevat tal van parallelle teksten. Soms gaat het om teksten die vrijwel identiek zijn, zoals dat het geval is bij sommige Psalmen, spreuken of wetsteksten. Soms vertellen verschillende teksten dezelfde gebeurtenissen. Zo wordt de belegering van Jeruzalem door de Assyrische koning Sanherib op drie plaatsen in de bijbel uitvoerig verteld. Soms treffen we verhalen aan die veel op elkaar lijken, maar betreffen de overeenkomsten meer de plot van het verhaal dan specifieke woorden of zinnen. Dit is bijvoorbeeld het geval met de drie verhalen waarin een aartsvader – in twee gevallen Abraham en in één geval Izaak – over zijn vrouw zegt dat zij zijn zuster is.
[11]
In andere gevallen bestaan de overeenkomsten slechts in de gebruikte verhaalmotieven, zoals het man-vindt-vrouw-bij-de-bron-motief, dat we vinden bij Jakob, die Rachel tegenkomt bij de bron (Gen. 29), en bij Mozes, die de dochters van Jethro aantreft bij de bron (Ex. 2), waarbij in beide gevallen de held van het verhaal ervoor zorgt dat de kudden van zijn toekomstige bruid ongestoord kunnen drinken, en de bruid vervolgens naar huis rent om dit opzienbarende feit aan haar vader te melden: Een variant hierop is het verhaal van de knecht van Abraham die eropuit gestuurd wordt om een bruid voor Abrahams zoon Izaak te vinden (Gen. 24). Ook haar vindt hij bij een waterput, en ook zij rent meteen weg om dit aan haar familie te vertellen.
[12]
Een aparte categorie van parallelle teksten vormen bijbelvertalingen. We kunnen de Hebreeuwse tekst van het Oude Testament, en de oude Griekse, Latijnse, Aramese en Syrische vertalingen beschouwen als parallelle versies van dezelfde tekst. Die vertalingen zijn soms zelf ook weer in verschillende versies bewaard gebleven. Dat we hierbij te maken hebben met teksten in verschillende talen betekent een extra uitdaging voor de onderzoeker, want het vaststellen van overeenkomsten en verschillen tussen de teksten vereist een zorgvuldige afweging van tekst-historische, vertaaltechnische en taalkundige overwegingen.

4. Inzet vanICT bij de bestudering van parallelle teksten

Het voorafgaande brengt ons bij de vraag: hoe de computer ingezet worden bij de analyse van deze parallelle bijbelteksten? Een eerste stap, waarvoor de computer uitstekend gebruikt worden, is het registreren van overeenkomsten en verschillen tussen de teksten. Dat klinkt misschien als een open deur, dat een wetenschapper eerst gegevens moet verzamelen en deze vervolgens pas interpreteren, maar het is allerminst vanzelfsprekend. Vaak begint een onderzoeker met een van tevoren gedefinieerde vraag. Dat levert echter het gevaar op dat de waarneming van de gegevens gekleurd wordt door de onderzoeksvraag. Als iemand de bestudering van de Syrische vertaling van het Oude Testament begint met de vraag ‘Hoe zag de Hebreeuwse tekst eruit die de Syrische vertalers gebruikt hebben?’ dan is het gevaar aanwezig dat hij of zij onvoldoende recht doet aan de vrijheid die vertalers zich veroorloofd hebben, of aan de eisen van het Syrische taalsysteem, waardoor het soms lijkt alsof de vertalers een andere Hebreeuwse tekst voor zich hadden dan de tekst die wij hebben, terwijl dat niet het geval hoeft te zijn.

Een ander voordeel van de computer is dat deze ons dwingt tot een formele en systematische beschrijving van onze uitgangspunten en procedures. Laat ik dit toelichten aan de hand van een voorbeeld dat ik zojuist al even genoemd heb, namelijk het verhaal van de belegering van Jeruzalem door de Assyrische koning Sanherib zoals we dat vinden in de bijbelboeken Koningen en Kronieken. We zullen de manier waarop deze parallelle teksten met de traditionele hulpmiddelen bestudeerd zijn, vergelijken met de manier waarop zij met de computer geanalyseerd kunnen worden.

5. De belegering van Jeruzalem in 2 Koningen 18-19 en 2 Kronieken 32

Een traditioneel hulpmiddel om parallelle teksten te bestuderen is de synopsis. Dit is doorgaans een boekwerk waarin parallelle teksten in kolommen naast elkaar worden afgedrukt.
[13]
Er bestaan veel van dergelijke synopsen van teksten die op de ene of andere manier parallel zijn aan elkaar. Zo ook van het bijbelboek Kronieken en de corresponderende hoofdstukken uit andere bijbelboeken.
[14]
Wanneer we nu de verschillende versies van de belegering van Jeruzalem door koning Sanherib in 2 Koningen 18-19 en 2 Kronieken 32 vergelijken, zien we bijvoorbeeld dat sommige uitspraken van de profeet Jesaja in de desbetreffende hoofdstukken in Koningen erg veel lijken op uitspraken van koning Hizkia in Kronieken. Zo krijgen de boden die Hizkia naar Jesaja gestuurd heeft in 2 Koningen 19:6 de volgende woorden mee terug:
[15]

Vrees niet voor de woorden waarmee de knechten van de koning van Assyrië mij hebben bespot.

Deze woorden lijken op de woorden waarmee Hizkia het volk een hart onder de riem steekt in 2 Kronieken 32:17-19:

Wees vastberaden en standvastig. Vrees niet voor de koning van Assyrië en de grote legermacht die hij bij zich heeft.

In beide passages vinden we ‘vrees niet voor … de koning van Assyrië’. De belangrijkste synopsis van Koningen en Kronieken, Parallels in the Bible van Abba Bendavid, presenteert deze verzen echter alsof ze geen parallel hebben. In zijn synopsis verschijnen de woorden van Jesaja in Koningen tegenover blanco regels in de kolom met de Kronieken-tekst, en staan de uitspraken van Hizkia in Kronieken tegenover blanco regels in de kolom van Koningen. Blijkbaar heeft Bendavid vooral gelet op de verhaallijn en heeft hij zich minder bekommerd om corresponderende woorden en uitdrukkingen, al maakt hij dat nergens expliciet. Nu is het algemeen aanvaard dat de schrijver van Kronieken gebruik heeft gemaakt van het boek Koningen. Bendavids synopsis suggereert dat de schrijver van Kronieken daarbij de woorden van Jesaja heeft weggelaten, en de uitspraken van Hizkia heeft toegevoegd. Onze computer-ondersteunde analyse heeft echter uitgewezen dat de situatie gecompliceerder is.

Ook in andere gevallen lijkt het erop dat de auteur van Kronieken de begrippen en uitdrukken uit Koningen opnieuw gerangschikt heeft, ‘door elkaar gehusseld’ of ‘gereshuffeld’, en deze op een nieuwe manier in hetnarratieve raamwerk heeft geplaatst. Dit zien we bijvoorbeeld als we kijken naar de volgende passage in 2 Kronieken 32:17-19:

Sanherib had ook een brief geschreven waarin hij de HEER, de God van Israël, hoonde door over hem te zeggen: ‘Zoals de goden van de volken van de landen hun volk niet uit mijn handen hebben kunnen redden, zo zal ook de God van Jechizkia zijn volk niet uit mijn handen kunnen redden.’ De afgezanten riepen luidkeels in het Judees tot de inwoners van Jeruzalem, die op de stadsmuur meeluisterden. Ze wilden hun schrik en angst aanjagen om zo de stad gemakkelijker te kunnen veroveren. Ze spraken over de God van Jeruzalem in dezelfde bewoordingen als over de goden van de volken van de landen, maaksels van mensenhanden.

Bendavid plaatst deze verzen parallel aan 2 Koningen 18:28-29, waar staat:

Toen trad de maarschalk naar voren, riep met luider stem in het Judees, en sprak het woord: ‘Hoort het woord van de grote koning, de koning van Assur! Zo zegt de koning: “Laat Hizkia u niet bedriegen, want hij kan u uit mijn macht niet redden.” ’

Er zijn echter veel meer woorden en woordcombinaties in deze verzen uit Kronieken die we aantreffen in de hoofdstukken uit Koningen, zoals blijkt uit de hieronder staande tabel. Deze woorden en uitdrukkingen die in Koningen verspreid over twee hoofdstukken voorkomen, zijn in Kronieken in 32:17-19 bij elkaar gekomen.

2 Kronieken 32:17-19	Parallellen in 2 Koningen 18-19
	Hizkia ‘s reactie op de gezanten van Sanherib:
17 Sanherib had ook een brief geschreven	19:14Toen Hizkia de brief had gelezen
	Aanhef van Hizkia ‘s gebed:
waarin hij de HEER, de God van Israël,	19:15 ‘HEE R, God van Israël’
	Hizkia ’s boodschappers tot Jesaja:
hoonde door over hem te zeggen:	19:4 ‘de rabsake (…) die door zijn heer, de koning van Assyrië, hierheen is gestuurd om de levende God te honen.’ Hizkia ‘s gebed: 19:16‘Hoor met welke woorden Sanherib de levende God hoont. ’
	Rabasake in naam van Sanherib:
‘Zoals de goden van de volken van de landen hun volk niet uit mijn handen hebben kunnen redden, zo zal ook de God van Jechizkia zijn volk niet uit mijn handen kunnen redden.’	18:35: ‘Als de goden van de landen niet in staat zijn gebleken hun land uit mijn handen te redden, hoe zou dan de HEER Jeruzalem kunnen redden?’ Sanherib tot gezanten die hij voor de tweede keer naar Hizkia stuurt: 19:12‘De goden van de volken, die door mijn voorouders werden uitgeroeid, hebben hen niet gered.’
	Rabsake bij de muren van Jeruzalem:
18 De afgezanten riepen luidkeels in het Judees	18:28 En hii rechtte ziin schouders en riep luidkeels in het Judees: ‘Luister naar wat de grote koning, de koning van Assyrië u te zeggen heeft!’
	Rabsake tot Eljakim e.a.:
tot de inwoners van Jeruzalem, die op de stadsmuur meeluisterden. Ze wilden hun schrik en angst aanjagen om zo de stad gemakkelijker te kunnen veroveren.	18:27 ‘Dacht u dat miin heer mii gestuurd heeft om het woord uitsluitend tot uw heer en u te richten? Onze woorden zijn net zo goed bestemd voor de mensen daar op de stadsmuur.’
	Hizkia ‘s gebed:
19 Ze spraken over de God van Jeruzalem in dezelfde bewoordingen als over de goden van de volken van de landen, maaksels van mensenhanden.	18:17-18 De koningen van Assur hebben de volken en hun landen verwoest en hun goden aan het vuur prijsgegeven. Dat waren dan ook geen goden, het waren slechts maaksels van mensenhanden, beelden van hout en steen. Zie ook hierboven voor: 18:35 ‘goden van de landen’. 19:12 ‘goden van de volken’.

Deze detail-observaties hebben verstrekkende gevolgen voor een van de centrale vragen van de oudtestamentische wetenschap, namelijk: welke bronnen hebben ten grondslag gelegen aan de bijbelboeken zoals wij die nu kennen? De subjectieve en intuïtieve beslissing om in gevallen als deze de verzen in Kronieken te presenteren alsof ze geen parallel hebben in Koningen is namelijk de voedingsbodem voor dé aanname dat de schrijver van Kronieken naast ons bekende bijbelboeken zoals Koningen ook andere, ons onbekende bronnen geraadpleegd heeft. In het geval van 2 Kronieken 32:17-19 zouden we bijvoorbeeld kunnen speculeren over een verzameling van uitspraken van koning Hizkia die de schrijver van Kronieken tot zijn beschikking heeft gehad. Echter, onze vaststelling dat ook in deze verzen de auteur van Kronieken gebruik heeft gemaakt van het materiaal dat reeds aanwezig was in Koningen, zij het op een vrijere manier dan in andere gevallen, maakt de hypothese van andere, verloren gegane bronnen overbodig.

De computer bewijst hier zijn diensten omdat hij ons dwingt onze uitgangspunten expliciet te maken, ons helpt om de gecompliceerde verhouding tussen beide teksten systematisch en controleerbaar in kaart te brengen, en ons behoedt voor te snelle conclusies op basis van subjectieve en intuïtieve beslissingen.

6. Overeenkomsten

Plagiaatdetectie en het opsporen van afhankelijkheidsrelaties in oude bijbelteksten hebben veel overeenkomsten. Een eerste overeenkomst is het feit dat in beide gevallen de computer wordt gebruikt om de afstand tussen teksten te meten. Een kleine afstand, dus een hoge mate van overeenkomst, is een indicatie van mogelijke afhankelijkheid. Dat we die afhankelijkheid in het ene geval kwalificeren als voortzetting van de literaire traditie en in het andere geval diskwalificeren als plagiaat, doet hierbij niet ter zake. De computer meet de mate van overeenkomst. Dat is de eerste stap. Vervolgens moet de menselijke docent of onderzoeker bepalen of die overeenkomsten zo significant zijn dat er sprake is van afhankelijkheid. Ook deze tweede stap is in beide gevallen min of meer gelijk. Pas in de derde stap moet die tekstuele afhankelijkheid beoordeeld worden. In het ene geval kan dat leiden tot een ernstig gesprek met een student over plagiaat, in het andere geval tot een wetenschappelijk artikel over de schrijverstradities in het oude Israël. De inzet van de computer is in beide gevallen hetzelfde.

Een tweede overeenkomst is het feit dat in beide gevallen het meten van overeenkomsten en verschillen een complexe aangelegenheid is. De anti-plagiaatsoftware moet zo geavanceerd zijn dat de plagiaatdetectie niet ontlopen worden door het eenvoudigweg vervangen van enkele woorden, het wijzigen van de woordvolgorde, of andere kleine wijzigingen. Ook de computerprogramma’s die wij gebruiken in het oudtestamentisch onderzoek moeten dergelijke complicaties aan kunnen. Neem bijvoorbeeld nogmaals devergelijking van de bijbelboeken Koningen en Kronieken. Ook hier komen wij gevallen tegen waar de schrijver van Kronieken de woordvolgorde verandert, het ene woord vervangt door een ander, of andere wijzigingen doorvoert. Misschien prefereerde hij net een ander woord, omdat het woord dat in Koningen stond in zijn tijd in onbruik geraakt was, een andere betekenis had gekregen, of omdat het niet goed paste in zijn eigen theologische opvattingen. Wat de achtergrond ook is, de vaststelling van parallellen en van formele overeenkomsten en verschillen gaat vooraf aan en is cruciaal voor ieder verder onderzoek naar de wijze waarop de schrijver van Kronieken gebruik heeft gemaakt van zijn bronnen.

7. Uitdagingen voor programma-ontwikkelaars

De complexiteit die ik in het voorafgaande beschreven heb, plaatst de ontwikkelaars van anti-plagiaatsoftware of van de computerprogramma’s die gebruikt worden in het bijbelonderzoek voor belangrijke vragen: hoe kan de computer ingezet worden om overeenkomsten tussen teksten te meten? Wat moet er vergeleken worden: losse woorden, woordgroepen, of grammaticale structuren? En als je al deze dingen meet, hoe stem je de resultaten dan onderling op elkaar af? Hoe ontdek je significante overeenkomsten in tegenstelling tot niet-significante overeenkomsten? Hoe voorkom je bijvoorbeeld dat veelvoorkomende voegwoorden, lidwoorden of voorzetsels de plagiaatpercentages ten onrechte opstuwen? Hoe de computer omgaan met variatie binnen een taal? (Denk aan de student die een woord vervangt door een synoniem, of aan de schrijver van Kronieken die het ene Hebreeuwse woord vervangt door een ander.) En hoe de computer correspondenties tussen parallelle teksten in verschillende talen vinden? Het opsporen van een Nederlands werkstuk dat in feite een vertaling is van een Engelse tekst of het beschrijven van de relatie tussen een Hebreeuwse tekst en zijn Syrische vertaling lijken twee geheel verschillende dingen, maar de manier waarop de computer hierbij ingezet kan worden, vertoont grote overeenkomsten.

Er zijn ook gevallen van het gebruik van bronnen die op het eerste gezicht met de bestaande middelen niet opgespoord kunnen worden, bijvoorbeeld als er bronnen gebruikt worden die niet elektronisch beschikbaar zijn. Ook dan bevat de tekst echter vaak kenmerken die een ervaren docent al snel zal herkennen als aanwijzingen dat er sprake is van plagiaat, zoals bijvoorbeeld een plotselinge stijlwisseling, een negentiende-eeuws woordgebruik, of een Nederlands dat alleen maar begrijpelijk wordt na een terugvertaling naar het Engels. Er zijn overigens ook initiatieven om dergelijke controles te automatiseren. Als een computerprogramma toegang heeft tot meerdere werkstukken van dezelfde student de mate van consistentie in schrijfstijl enwoordgebruik gemeten worden. Passages die opeens een afwijkende stijl of een afwijkend woordgebruik laten zien, komen dan onder de verdenking van plagiaat te staan.

In het oudtestamentisch onderzoek worden dergelijke methoden eveneens toegepast. In veel gevallen beschikken wij niet over de bronnen die de auteurs of redacteurs van de bijbelboeken gebruikt hebben, maar het bestaan van die bronnen aannemelijk gemaakt worden op basis van specifieke taalkundige, tekstuele of theologische kenmerken. Het gaat hierbij dus om een situatie die het tegenovergestelde is van wat ik beschreven heb voor Kronieken in relatie tot Koningen, waar juist de samenhang van woordgebruik en stijl de aanname van andere bronnen overbodig maakt.

8. Vragen voor interdisciplinair onderzoek

Het naast elkaar zetten van anti-plagiaatsoftware en computer-ondersteunde filologie roept een aantal interessante vragen op die alleen in een interdisciplinaire samenwerking beantwoord kunnen worden. Een eerste vraag is: welke mathematische principes kunnen worden toegepast in beide vormen van computationele tekstvergelijking en welke metriek dient gebruikt te worden bij het bepalen van de afstand tussen teksten?
[16]
De afstand tussen het Mattheüs- en het Marcus-evangelie niet uitgedrukt worden in centimeters of kilometers. Ook als we die afstand alleen uitdrukken in een getal, bijvoorbeeld 37, 3,25 of 25.546, hebben we in feite nog niets gezegd. Misschien veroorzaakt de uitkomst van ons onderzoek dan een gevoel van ontgoocheling zoals dat voorkomt in de science-fiction roman The Hitchhiker’s Guide to the Galaxy van Douglas Adams, waarin een computer na 7,5 miljoen jaar rekenen weet te vertellen dat The Answer to Life, the Universe andEverything42 is.

We moeten dus bepalen wat we meten en welke betekenis we kunnen toekennen aan de uitkomsten van onze metingen. Ik zal op deze plaats niet uitgebreid ingaan op de strategie die wij moeten volgen om een goede metriek te ontwikkelen, maar wil wel wijzen op enkele wiskundige implicaties:
[17]

Beschouwen wij een tekst primair als een reeks van opeenvolgende elementen, dan is het meten van de mate van overeenkomst tussen twee teksten wiskundig gezien te vergelijken met het meten van het verschil tussen twee DNA-ketens. Dit verschil wordt vaak met deLevenshtein-afstand aangegeven. Dit is het minimaal aantal bewerkingen dat nodig is om de ene reeks in de andere te veranderen.
We kunnen ook zoeken naar kleinere reeksen van letters of woorden die in verschillende teksten voorkomen, evenals genetici zoeken naar corresponderende stukjes in DNA-ketens om bijvoorbeeld de codes voor erfelijke ziektes op te sporen.

[18]
We kunnen de volgorde van de woorden ook negeren en de tekst behandelen als een verzameling van losse woorden. Deze bag-of-words-aanpak bewijst bijvoorbeeld goede diensten in de spamfilters van e-mailprogramma’s. Spam wordt immers vooral gekenmerkt door specifieke woorden die daarin voorkomen, ongeacht de volgorde waarin we deze aantreffen.
We kunnen ook besluiten om de frequentie van woorden buiten beschouwing te laten en alle woorden die in een tekst meerdere keren voorkomen slechts één keer meetellen, om zo de woordenschat van teksten te vergelijken.
In andere gevallen willen we niet alleen kijken naar exacte woorden of woordcombinaties die overeenkomen, maar ook naar verschillende woorden die hetzelfde concept uitdrukken of die op een andere manier met elkaar te maken hebben. Hiervoor kunnen we gebruik maken van Latent Semantic Indexing (LSI). Deze techniek wordt door zoekmachines zoals Google gebruikt om ervoor te zorgen dat het zoeken naar ‘kookaccessoires’ ook pagina’s oplevert waarop de woorden ‘pan’ en ‘schaal’ voorkomen.
Hebben we twee teksten grammaticaal geanalyseerd en vergelijken we vervolgens de zinsstructuren, dan betreft dit wiskundig gezien dé vergelijking van boomstructuren, die bijvoorbeeld ook wordt toegepast in de evolutionaire biologie.

De hier genoemde methoden van vergelijking, die meestal ontwikkeld zijn in de exacte wetenschappen, worden overigens niet alleen toegepast in de studie van manuscripten en parallelle teksten, maar ook in andere takken van degeesteswetenschappen. Zo worden zij bijvoorbeeld in de dialectologie gebruikt om de afstand tussen dialecten te beschrijven.
[19]
Een andere vraag die het naast elkaar stellen van anti-plagiaatsoftware en computer-ondersteunde filologie oproept, is de volgende: als we verschillende bijbelboeken door de anti-plagiaatsoftware halen, hebben een aantal bijbelboeken een hoge plagiaatscore. Waarom noemen we dat geen plagiaat? In andere gevallen zijn we toch wel geneigd om moderne opvattingen te hanteren bij een beoordeling van zaken in het verleden of in andere culturen, bijvoorbeeld als wij spreken over ‘onmenselijke’ praktijken of ‘vrouwonvriendelijke’ tekstpassages? Waarom zijn we dan wel zo welwillend tegenover oude schrijvers die zich naar moderne begrippen schuldig hebben gemaakt aan plagiaat? Dergelijke vragen bepalen ons bij het feit dat ons huidige plagiaatbegrip en de daaraan gerelateerde opvattingen over auteursrecht en intellectueel eigendom sterk tijd- en cultuurgebonden zijn. Zij lenen zich voor een interessant interdisciplinair debat met filosofen, cultureel antropologen, sociologen en andere experts.

Dit brengt mij bij een laatste vraag, betreffende onze huidige samenleving en onze huidige omgang met teksten. Zal het internet ons in de loop van de eenentwintigste eeuw niet terugbrengen naar een cultuur waarin teksten gemeenschappelijk bezit zijn, waarbij de auteur geen claim meer heeft op wat hij geschreven heeft, of zelfs verdwijnt in de anonimiteit achter een reeks van bewerkingen die de tekst heeft ondergaan? Er zijn opvallend veel overeenkomsten tussen de manier waarop anonieme schrijvers in het oude Israël schijnbaar onbevangen bestaande bronnen gebruikten en bewerkten en de manier waarop tegenwoordig anonieme contribuenten werken aan de voortdurende verfijning en aanpassing van artikelen in de Wikipedia.

9. Besluit

In deze bijdrage heb ik geprobeerd iets te laten zien van de manier waarop de computer kan worden ingezet bij de bestudering van oude teksten, welke principes daarbij van toepassing zijn, en welke bijdrage het formele, mathematische werk van de computer kan leveren aan de filologische analyse eninterpretatie van oude teksten en aan het beantwoorden van centrale vragen in de oudtestamentische wetenschap betreffende de ontstaans- en overleveringsgeschiedenis van bijbelteksten.

Het vergelijken van bijbelteksten is niet hetzelfde als het opsporen van plagiaat. Terwijl anti-plagiaatprogramma’s hun doel bereikt hebben als is vastgesteld dat de ene tekst de andere gebruikt heeft, wil de filoloog verder gaan en analyseren hoe en waarom deze brontekst is overgenomen, bewerkt of vertaald. Toch levert de vergelijking van plagiaatbestrijding en computer-filologie een aantal verrassende inzichten op betreffende de wijze waarop de computer ingezet kan worden, de wisselwerking tussen de informatie die de computer oplevert en de menselijke interpretatie en beoordeling daarvan, en de sterke mate waarin onze visie op hergebruik en bewerking van teksten cultuurgebonden is.

In onze analyse van oudtestamentische teksten speelt de computer een belangrijke rol bij de formalisering van onderzoeksstrategieën, die een tegenwicht bieden tegen te snelle subjectieve en intuïtieve beslissingen. Hij bovendien in zeer korte tijd ontzettend veel complexe gegevens verzamelen en sorteren, en hanteert daarbij een mate van consistentie die een menselijke onderzoeker onmogelijk bereiken.

De computer neemt ons ontzettend veel werk uit handen, maar hij maakt de inbreng van de menselijke onderzoeker geenszins overbodig. De computer geweldige diensten bewijzen in filologisch onderzoek, maar deze diensten komen alleen tot hun recht in de voortdurende wisselwerking tussen de rekenkracht en consistentie van de computer en de zorgvuldige weging en interpretatie door de menselijke onderzoeker.

Het bredere veld aan vragen dat ik aan het einde van dit artikel heb beschreven, biedt alle aanleiding tot interdisciplinair onderzoek met filologen, taalkundigen, computer-experts, wiskundigen, cultureel-antropologen en juristen. In het Turgama-project hebben we de eerste stappen gezet naar een dergelijke interdisciplinaire samenwerking. Het is echter duidelijk dat hier een grotendeels onontgonnen gebied ligt, waarop nog veel onderzoek gedaan moet worden.