- Palávras tidas como "átomos" da linguagem natural. "Célula unitária". Elas são a menor unidade significativa que ainda faz sentido por conta própria. A tokenização faz com que seja possível identificar as palavras que possuem mais frequência em seu texto.
- Com esse tipo de tokenização é possível ver com mais clareza como as palavras podem se relacionar. É possível ter uma melhor visão do contexto.
- Palavras que deseja ignorar. Podemos realizar a "desutilização" delas por meio de um pré-processamento.