Uncategorized
Text Mining deel 3 Text mining, Netwerkanalyse en negentiende-eeuwse romans
Netwerkanalyse beperkt zich niet tot de verbindingen tussen eenheden in de “echte wereld”. Ook teksten zijn op te vatten als werelden met eigen netwerken. En deze netwerken zijn te reconstrueren door text mining met netwerkanalyse te combineren. Een student van Jan Scholtes, hoogleraar text mining in Maastricht, reconstrueerde geheel “automatisch” wie welke reizen in Tolkiens Lord of the Rings maakten en visualiseerde de resultaten op een kaart van Midden Aarde. Het resultaat is spectaculair.
En twee informatici en een hoogleraar Engelse taal en letterkunde reconstrueerden de sociale netwerken in negentiende-eeuwse romans. Ze hebben twee hypothesen getest die ze ontlenen aan de gangbare opvattingen over deze romans.
1. Hoe meer karakters optreden in een verhaal, hoe minder dicht het sociale netwerk tussen hen zal zijn.
2. Romans die zich afspelen in een plattelandsomgeving bevatten dichte netwerken met minder romanfiguren. Romans die zich in een stedelijke omgeving afspelen, herbergen daarentegen meer karakters in een minder dicht sociaal netwerk.
Deze gangbare opvattingen zijn ingeburgerd geraakt na grondige studie van slechts enkele teksten. De twee hypothesen die de onderzoekers daaruit distilleerden kunnen echter met behulp van text mining worden getoetst aan de hand van een veel groter corpus.
Eerst identificeerden ze de eigennamen in de teksten. Daarna hebben ze alle dialogen geïnventariseerd. En geconcludeerd dat de hypothesen geen stand houden. De “plattelandsroman” verschilt niet van de het verhaal dat zich afspeelt in de stad. De samenstelling en dichtheid van de sociale netwerken in de teksten lijken samen te hangen met de manier van vertellen, niet met de omgeving waarin het verhaal is gesitueerd. Zie verder het fascinerende artikel.
Er wordt bezwaar gemaakt tegen de methode van de auteurs: alleen rechtstreekste conversaties zijn meegenomen. Verwijzingen naar contacten en/of indirecte rede niet. Iemand moet minstens drie maal het woord tot iemand anders richten om mee te tellen. Reducties die in mijn ogen inderdaad noodzakelijk zijn om tot resultaten te kunnen komen bij de huidige stand van de techniek, maar waar literatuurwetenschappers met hun hang naar complete teksten wantrouwig van worden.
Ik begrijp de bezwaren, maar toch acht ik de combinatie van text mining en netwerkanalyse heel veelbelovend en ben ik begonnen met eigen proefnemingen. Het eerste corpus waar ik mee aan de slag ben gegaan is dat van de BMGN, De Bijdragen en Mededelingen betreffende de Geschiedenis der Nederlanden, het eerbiedwaardigste historische vakblad dat ik ken. U hoort er hopelijk nog van.
U moet ingelogd zijn om een reactie te kunnen plaatsen.