Tokenisierung
Die Tokenisierung ist die erste Annotationsebene. Es identifiziert die "Atome", an die Annotationseinheiten gebunden sind. Abhängig von der Definition von "Token" (z. B. Morphem oder morphosyntaktisches oder prosodisches Wort) kann es unterschiedliche Tokenisierungsschemata geben. Der Korpus enthält derzeit eine Ebene morphosyntaktischer Tokenisierung.