Skip to content

lucasDSBR/NLTK-NLP-Python

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

NLTK-NLP-Python

Tipos de Tokenização:

Tokenização por palavra:

  • Palávras tidas como "átomos" da linguagem natural. "Célula unitária". Elas são a menor unidade significativa que ainda faz sentido por conta própria. A tokenização faz com que seja possível identificar as palavras que possuem mais frequência em seu texto.

Tokenização por palavra:

  • Com esse tipo de tokenização é possível ver com mais clareza como as palavras podem se relacionar. É possível ter uma melhor visão do contexto.

Palavras de parada:

  • Palavras que deseja ignorar. Podemos realizar a "desutilização" delas por meio de um pré-processamento.

About

No description or website provided.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages