UvT bouwt aan taalcorpus
De Universiteiten van Tilburg, Utrecht, Nijmegen, Twente, en in Vlaanderen Leuven en Gent bouwen met samen aan een taalcorpus: een enorme taaldatabank met geschreven taal. Het is de bedoeling om 500 miljoen woorden aan tekst in verschillende teksttypes te verzamelen.
Het vernieuwende aspect van dit project, genaamd SoNaR, zit hem in de aandacht voor taal uit nieuwe media. SoNaR verzamelt tekst uit weblogs, tweets, e-mails (spam en geen-spam), ondertiteling, discussiefora, autocues en sms. Op 1 december wil SoNaR 50.000 sms-jes uit Vlaanderen en Nederland verzameld hebben. Medewerkster Anne Kuijs schreef er ook over op de hippe blogspot Dutch Cowboys. Taalcorpora bestaan al jaren, in verschillende talen, en aangelegd door verschillende instituten. Een corpus bevat tekst die door mensen is geschreven: natuurlijk geproduceerde tekst dus.
Een corpus is nooit af, en SoNaR is dan ook nog steeds op zoek naar tekst voor in het corpus. Wat voor tekst maakt niet uit: e-mails, sms, blogs en werkstukken zijn meer dan welkom via de website van SoNaR.