Tokenizzazione
La tokenizzazione è il primo livello di annotazione. Esso identifica gli "atomi" a cui si legano le unità di annotazione. Possono esistere diversi schemi di annotazione sulla base della definizione di token (per esempio, morfema, o parola morfosintattica o prosodica). Il corpus contiene un livello di tokenizzazione morfosintattica.