UvT bouwt aan taalcorpus

15 november 2011

De Universiteiten van Tilburg, Utrecht, Nijmegen, Twente, en in Vlaanderen Leuven en Gent bouwen met samen aan een taalcorpus: een enorme taaldatabank met geschreven taal. Het is de bedoeling om 500 miljoen woorden aan tekst in verschillende teksttypes te verzamelen.

Het vernieuwende aspect van dit project, genaamd SoNaR, zit hem in de aandacht voor taal uit nieuwe media. SoNaR verzamelt tekst uit weblogs, tweets, e-mails (spam en geen-spam), ondertiteling, discussiefora, autocues en sms. Op 1 december wil SoNaR 50.000 sms-jes uit Vlaanderen en Nederland verzameld hebben. Medewerkster Anne Kuijs schreef er ook over op de hippe blogspot Dutch Cowboys. Taalcorpora bestaan al jaren, in verschillende talen, en aangelegd door verschillende instituten. Een corpus bevat tekst die door mensen is geschreven: natuurlijk geproduceerde tekst dus.

Een corpus is nooit af, en SoNaR is dan ook nog steeds op zoek naar tekst voor in het corpus. Wat voor tekst maakt niet uit: e-mails, sms, blogs en werkstukken zijn meer dan welkom via de website van SoNaR.

Bekijk meer recent nieuws

Viroloog Marion Koopmans tijdens Science Cafe Tilburg juni 2026

International

UvT bouwt aan taalcorpus

UvT bouwt aan taalcorpus

Lees ook

Keti Koti legt koloniale verleden Tilburg bloot: ‘Herdenken en vieren gaan hand in hand’

Ritalin, koffie en slaapmiddelen: zo komen studenten de tentamenperiode door

Burgemeester Fleur Gräper – van Koolwijk: ‘Je hoeft als student nog niet klaar te zijn voor het leven’

Koeman had het aanvallende spel van Oranje door moeten trekken

Bekijk meer recent nieuws

Marion Koopmans on online threats and disinformation: ‘Scientists, come out of the ivory tower’

Children play the Zero Hunger Game: ‘I was shocked, we gained a few million inhabitants’

Univers met zomerreces, vanaf 17 augustus weer campusnieuws

Marion Koopmans on online threats and disinformation: ‘Scientists, come out of the ivory tower’

Children play the Zero Hunger Game: ‘I was shocked, we gained a few million inhabitants’

Univers met zomerreces, vanaf 17 augustus weer campusnieuws

UvT bouwt aan taalcorpus

UvT bouwt aan taalcorpus

Lees ook

Bekijk meer recent nieuws

Schrijf je in voor onze nieuwsbrief