Text Mining PT

Este pacote implementa uma série de funções que auxiliam no tratamento de textos escritos em português para que possam ser usados em análises de Text Mining.

Uma das principais diferenças deste pacote é que ele é feito para lidar com vetores de caracteres e não com Corpus que nem o pacote tm. Isso o torna muito mais simples de utilizar mesmo que exista queda na performance.

Usando

Considerando o seguinte parágrafo:

s <- c("Já dizia o clichê: “dados são o novo ouro”. O mundo gera informação esponencial e ao mesmo tempo, todos querem uma fatia desse bolo. Intuição ou regras do senso comum são úteis, mas não suficientes. É preciso saber que os dados permitem às empresas e organizações entenderem seus clientes, produtos e processos muito melhor.")

Ele possui um erro de ortografia: na palavra excencial que está escrita essencial Além disso, o texto precisa de um tratamento, antes de entrar em algum algoritmo de text mining.

Com o pacote, é possível fazer da seguinte maneira:

library(PTtextmining)
s %>%
  transformar_minusculo() %>%
  transformar_corrigir() %>%
  remover_stopwords() %>%
  remover_acentos() %>%
  remover_pontuacao() %>%
  remover_numeros() %>%
  remover_dinheiro() %>%
  remover_espacos_excedentes()
#> [1] "dizia cliche dados novo ouro mundo gera informaçao exponencial tempo querem fatia desse bolo intuiçao regras senso comum uteis suficientes e preciso saber dados permitem empresas organizaçoes entenderem clientes produtos processos"

Name		Name	Last commit message	Last commit date
Latest commit History 32 Commits
R		R
data		data
inst/dic		inst/dic
man		man
tests		tests
.Rbuildignore		.Rbuildignore
.gitignore		.gitignore
DESCRIPTION		DESCRIPTION
LICENSE		LICENSE
NAMESPACE		NAMESPACE
PTtextmining.Rproj		PTtextmining.Rproj
README.Rmd		README.Rmd
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Text Mining PT

Usando

About

Releases

Packages

Languages

License

dfalbel/PTtextmining

Folders and files

Latest commit

History

Repository files navigation

Text Mining PT

Usando

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages