AI gebruiken om bijbelboeken te dateren, een solide plan?
Inmiddels alweer een jaar of vijf geleden deed ik onderzoek met behulp van Recurrent Neural Networks. In AI jaren een oud onderzoek gezien de snelheid van de ontwikkelingen. Toch is het onderzoek een relevante om te noemen en laat het zien hoe AI de theologie verder kan helpen. Het onderstaande is een korte samenvatting van het onderzoek, het hele paper kun je hier lezen.
Het onderzoek bekijkt of machine learning een uitweg kan bieden in het klusteren van de boeken aan de hand van de taalkundige verschillen. We gebruiken hiervoor Recurrent Neural Networks (vanaf hier RNNs).
RNNs kunnen sequentiรซle gegevens, zoals taal, effectief modelleren. De volgende toestand kan voorspeld worden niet alleen door de huidige, maar ook door de voorgaande in ogenschouw te nemen. Een RNN biedt daarom een vrij precieze methode om de taalkundige variatie binnen een taal te bestuderen.
De stand van zaken
Het proberen te reconstrueren van een chronologisch tijdkader van de Bijbelse teksten is een uitdaging die al jaren een onderdeel is van de bijbelkritiek. Grofweg kan men stellen dat er twee kampen zijn in de discussie: de groep die gelooft dat er een taalkundige scheiding te maken valt tussen Vroeg Bijbels Hebreeuws (VBH) en Laat Bijbels Hebreeuws (LBH). Daarnaast is er ook een groep die stelt dat de verschillen slechts stijlkundige voorkeuren laten zien. De groep die een verdeling onderschrijft, stelt dat de teksten in het VBH in de pre-ballingsperiode geschreven zijn, waar de LBH teksten juist na de ballingschap zijn geschreven. Wilhelm Gesenius was een van de eerste de de diachrone analyse op deze wijze liet zien. Hij stelde dat er twee verschillende lagen in het Bijbels Hebreeuws te vinden zijn, die wijzen op twee opeenvolgende fases. Later zijn deze fases pre-ballingschap- en post-ballingschapsperiode genoemd. Avi Hurtvitz was een van de theologen die dit gedachtegoed voortzetten, en vond kenmerken die wijzen op een LBH schrijfstijl, waarbij de taal die in het boek Kronieken te vinden is als belangrijke pijler wordt gezien. Hij stelde dat:
โTaalkundige verandering in Bijbels Hebreeuws tijdens de ballingschap was zo beslissend dat de post-ballingsperiode bijbelschrijvers niet meer in staat waren om Vroeg Bijbels Hebreeuws van de pre-ballingsperiode te schrijven; en ten tweede, dat aangezien het Laat Bijbels Hebreeuws van de post-ballingsperiode een taalkundig lichaam was dat verschilede van het Vroeg Bijbels Hebreeuws zowel in vorm als in chronologie, men bijbelse teksten uitsluitend op basis van taalkundige gegevens kan dateren.โ
Met andere woorden: door de taal van een tekst te analyseren, kunnen kenmerken worden afgeleid die wijzen op een vroege of late datering. Dit vanwege de vermenging met het Aramees dat tijdens de ballingschap invloed had op het Hebreeuws. Hurvitz ontwikkelde een methode om de Laat Bijbels Hebreeuwse kenmerken te definieren, een methode die niet onbekritiseerd bleef. Young, Rezetko en anderen daagde de methode uit, zij schrijven de taalkunde variaties meer toe aan stijl dan aan diachrone ontwikkeling. In plaats van aan te nemen dat de twee corpora in verschillende periode zijn samengesteld en bewerkt, betoogden zij dat schrijvers af en toe en onsystematisch individuele taalkundige elementen aanpasten. Het zijn, aldus hen, naast elkaar bestaande stijlen van literair Hebreeuws gedurende de hele bijbelse periode.
De discussie tussen de traditionele, chronologische benadering en de alternatieve, stijlgerichte benadering is moeilijk te beslechten. Het gebruik van Recurrent Neural Networks zou eventueel kunnen helpen hierin. In het onderzoek gebruiken we gegevens van het Eep Talstra Centrum voor Bijbel en Computer, met als basis voor het onderzoek de traditionele indeling:
Vroeg Bijbels Hebreeuws: Genesis, Exodus, Deuteronomium, Leviticus, Richteren, Jozua, Koningen, Samuel.
Laat Bijbels Hebreeuws: Kronieken, Daniel, Prediker, Ester, Ezra-Nehemia, Hooglied.
Kenmerken om te categoriseren
Om RNNโs te kunnen gebruiken om bij te dragen aan het lopende debat over de taalkundige variatie in de Bijbel, hebben we een aantal kenmerken geselecteerd die tekenend zijn voor de verschillen tussen het Vroeg Bijbels Hebreeuws en de andere boeken. Er is uitgebreid onderzoek gedaan naar de taalkundige verschillen tussen het Vroeg en Late Hebreeuws, zie bijvoorbeeld Ian Young (2017) Linguistic Dating of Biblical Texts: Volume 2. (pp. 166-214). De verschillen doen zich op verschillende niveauโs van het taalkundige spectrum, van woordvormen tot syntactische constructies.
Een van de kenmerken die sterke verschillen laat zien is het gebruik van de werkwoordstamformaties. Rooker schreef eerder al dat er door de tijd een toename is in het gebruik van de Piโel en een afname in het gebruik van de Hifโil-stam. Kutscher wijst erop dat er een toename in de Nifโal-stam voorkomt in het Laat Bijbels Hebreeuws, die de passieve Qal uit het Vroeg Bijbels Hebreeuws vervangt. Variatie in het gebruik van werkwoordstammen in de verschillende corpora wordt erkend door zowel voorstanders als tegenstanders van de diachrone benadering. We verwachten dus dat er door de RNNโs ook duidelijke clusters zullen verschijnen bij het voorspellen van de werkwoordstammen. Mocht de hypothese correct zijn, dan zal de clustering redelijk netjes verlopen.
Het tweede kenmerk zijn de waw-consecutieve zinnen, die in de ETCBC-database zijn geclassficeerd in de clausetypelabels. De wayyiqtol-zinnen lijken minder frequent voor te komen in het Laat Bijbels Hebreeuws, zo als in een eerder onderzoek blijkt. We verwachten dus op deze categorie een nette scheiding.
Naast deze twee kenmerken die een rol spelen in het wetenschappelijke debat, hebben we ook enkele andere syntactische kenmerken opgenomen, die minder zichtbaar zijn dan werkwoordstammen of werkwoordtijden, en daarom ook minder gemakkelijk te manipuleren door een auteur die in een bepaalde stijl of archaรฏsche taal wil schrijven. Door de onbewuste aard van deze syntactische kenmerken, zijn zij geschikt om stilistische of chronologische verschillen tussen de geanalyseerde boeken te onthullen (zie Wido van Peursen. 2019. A Computational Approach to Syntactic Diversity inthe Hebrew Bible.Journal of Biblical Text Research44 (2019), pp. 244). Deze kenmerken omvatten onder andere woordsoort, die op woordniveau werkt, en frasefunctie, die kijkt naar de syntactische functie van de frase.
De kenmerken die we in ons onderzoek zullen gebruiken, zijn als volgt:
- frase: functie โ object, onderwerp, betrekkelijk, enz.;
- clausule: type โ nominaal, deelwoord, wayyiqtol, enz.;
- woord: woordsoort โ zelfstandig naamwoord, lidwoord, voorzetsel, enz.;
- woord: werkwoordstam โ Hifโil, Piโel, Qal, enz.
Omdat een RNN taal rechtstreeks op woordgebruik kan modelleren, is het in staat om het grootste deel van de taalkundige variatie rechtstreeks uit de taal te halen. Daarom hebben we het model ook rechtstreeks op de Hebreeuwse Bijbel losgelaten. We gaan ervan uit dat de gemodelleerde variatie de andere kenmerken weerspiegelt.
De resultaten
Het model bleek zeer effectief in het modelleren van de Hebreeuwse taal. Enkele volledig gegenereerde zinnen zijn weergegeven in de afbeelding hieronder. Zij tonen een vrij nauwkeurige Hebreeuwse grammatica. De gemiddelde nauwkeurigheid van het woordtaalmodel was 90,02%. Het draaien van taalmodellen op de geselecteerde kenmerken leverde veelbelovende resultaten op. De nauwkeurigheden waren respectievelijk 87,45%, 81,48%, 62,14% en 55,56% voor werkwoordstam, clausuletype, frasefunctie en woordsoort.

Bij het bekijken van de afzonderlijke kenmerken, evenals allemaal gecombineerd, toont de methode aan dat er een sterke voorkeur is voor een deel van de geclassificeerde EBH-boeken, en een sterke voorkeur voor enkele geclassificeerde LBH-boeken. Er is ook een middengroep die tussen deze twee clusters beweegt, afhankelijk van welke kenmerken de RNNโs analyseren. Dit geeft enige steun aan de diachrone benadering, omdat Hurvitz en anderen VBH en LBH als twee clusters beschouwen, terwijl zij die onderscheid maken tussen standaard en perifeer BH de nadruk leggen op de variatie binnen het vermeende LBH-corpus. We zullen de afzonderlijke kenmerken hieronder analyseren, waarna we zullen concluderen wat dit zou kunnen betekenen voor het debat over taalkundige variatie.
Conclusie
De resultaten tonen aan dat RNNโs inderdaad effectief kunnen worden toegepast op de Hebreeuwse Bijbel om de taalkundige variatie te analyseren. De RNNโs toonden clustering op verschillende niveaus, zonder dat de kenmerken gecombineerd hoefden te worden om nette clustering te krijgen. Dit maakt het mogelijk om inzicht te krijgen in welke kenmerken het meest dominant blijken te zijn als het gaat om taalkundige veranderingen.
Bovendien hebben we interessante inzichten verkregen die relevant zijn voor het lopende debat over taalkundige variatie in Bijbels Hebreeuws. De verkregen clusters blijken over het algemeen in lijn te zijn met de gevestigde consensus met betrekking tot de vermeende VBH- en LBH-corpora. Een specifieke set van geclassificeerde VBH-boeken verschijnt in een sterke cluster door alle geteste kenmerken heen; deze groep omvat de boeken Genesis, Richteren, Koningen en Samuรซl. Jozua vertoont een voorkeur voor deze clustergroep, maar is niet consistent genoeg om volledig tot de groep te worden gerekend. Een andere cluster komt voor binnen de vermeende LBH-boeken, bestaande uit Ezra-Nehemia, Kronieken, Prediker en Hooglied. Deze vier verschijnen in elkaars nabijheid, waarbij het duo Ezra-Nehemia en Kronieken samen optreedt en het duo Prediker en Hooglied bij elkaar blijft over de verschillende kenmerken heen.
De resultaten tonen clusters die gedeeltelijk de verdeling in VBH en LBHย weerspiegelen. Een sterke cluster van VBH-boeken bestaat uit Genesis, Richteren, Samuรซl en Koningen. Dat er zoโn cluster van VBH-boeken bestaat, wordt erkend door zowel voor- als tegenstanders van een diachrone verklaring van taalkundige diversiteit in de Bijbel. Dit resultaat van onze analyse steunt dus geen van beide benaderingen. In de meeste gevallen richt ons onderzoek zich op de verdeling van taalkundige kenmerken, in plaats van op een intrinsieke taalkundige verklaring die kan verwijzen naar taalontwikkeling en dus de diachrone benadering kan ondersteunen (bijv. processen van analogievorming van zwakke vormen), hoewel in sommige gevallen een diachrone verklaring wordt gesuggereerd door de verdeling (bijv. het afnemende gebruik van de passieve qal). Wat overblijft, is รฉรฉn resultaat van ons onderzoek dat mogelijk ondersteunend is voor de diachrone benadering, namelijk dat we niet alleen een sterke VBH-cluster ontdekten, maar ook รฉรฉn of meer sterke LBH-clusters. Dit kan het standpunt ondersteunen dat deze boeken een bepaalde taalfase weerspiegelen (en dus de diachrone benadering ondersteunen), in plaats van afwijkingen van de standaardtaal.
De traditionele verdeling tussen VBH en LBH is met name sterk in de clustering op basis van werkwoordstam en clausuletype. Daarnaast is er een middengroep die schijnbaar vrij beweegt tussen de voorgestelde VBH-cluster en LBH-cluster, afhankelijk van het geanalyseerde kenmerk. Deze groep bestaat uit de volgende boeken: Exodus, Deuteronomium, Leviticus, Daniรซl en Ester. Deze middengroep vereist verder onderzoek.
Binnen het diachrone kader kan men zich afvragen of het label โvroegโ geschikt is voor boeken zoals Exodus, Leviticus en Deuteronomium. In sommige gevallen kan de positionering van boeken in bepaalde clusters te maken hebben met teksttype, en dus kunnen de wetgevende delen van deze drie boeken hun taalkundig profiel hebben beรฏnvloed. De verhalende stijl van Daniรซl en Ester kan hun positie in deze middengroep hebben veroorzaakt.
De volgende verdeling is een hypothese die we in onze resultaten vonden en die als uitgangspunt kan dienen voor verder onderzoek:
- Vroeg-Bijbels Hebreeuws: Genesis, Richteren, Jozua, Koningen, Samuรซl.
- Middengroep: Exodus, Deuteronomium, Leviticus, Daniรซl, Ester.
- Laat-Bijbels Hebreeuws: Kronieken, Prediker, Ezra-Nehemia, Hooglied.
Yanniek van der Schansย is als theoloog thuis in Bijbels Hebreeuwse taalkunde en theologische filosofie. Ze is docent levensbeschouwing en redactiesecretaris van tijdschriftย Schrift.