language-agnostic

it does not require pre-tokenization or language-specific rules. SentencePiece supports both BPE and unigram language model tokenization.