-
Notifications
You must be signed in to change notification settings - Fork 0
/
stop-words.R
56 lines (45 loc) · 1.08 KB
/
stop-words.R
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
rm_accent <- function(x){
stringi::stri_trans_general(x, "Latin-ASCII")
}
# abjutils::rm_accent()
# Sources que tem pt: "snowball", "stopwords-iso", "nltk"
# Quais são as fontes de conjuntos de stop words disponíveis
# stopwords::stopwords_getsources()
# [1] "snowball" "stopwords-iso" "misc" "smart"
# [5] "marimo" "ancient" "nltk" "perseus"
# stopwords::stopwords_getlanguages("smart")
# Vamos usar o snowball
snowball <-
stopwords::stopwords(source = "snowball", language = "pt")
# snowball
#
# tokens_enquete |>
# filter(!palavra %in% snowball) |>
# count(palavra, sort = TRUE)
# Vamos adicionar algumas palavras que não estão no snowball
# Mas que olhando os resultados, aparecem muito
# e não são relevantes para a análise
extra_stop_words <- c(
"é",
"ser",
"pra",
"vai",
"portanto",
"quer",
"querer",
"quase",
"pois",
"algo",
"assim",
"ai",
"ainda",
"algum",
"sendo",
"existe",
"disso",
"deveria",
"deveriam",
"disso",
"á"
)
stop_words_completo <- c(snowball, extra_stop_words)