In [1]:
options(warn=-1)

In [2]:
# Установка и загрузка необходимых библиотек
# install.packages("quanteda")
# install.packages("quanteda.textstats")

library(quanteda)
library(quanteda.textstats)

# Чтение файла
text_data <- readLines('f:/chatepc/chatalx/work/data/obriv.txt', encoding = "UTF-8")
cat("Длина text_data: ", length(text_data), "\n")

# Проверка на пропущенные значения в текстовых данных
if (anyNA(text_data)) {
  text_data <- text_data[!is.na(text_data)]
}
cat("Пропущенные значения в text_data: ", anyNA(text_data), "\n")

# Создание корпуса текста с использованием quanteda
corpus <- corpus(text_data)
cat("Корпус создан\n")

# Создание списка своих стоп-слов
my_stopwords <- c(stopwords("ru"), "фр","тебе","веры", "сапросил", "говорил","говорила","ах","бабушки","вера", "райского", "марковна","райский", "татьяна", "марфинька", "марк","бабушка","сказал","сказала", "не", "на", "только", "с", "к", "я", "о", "а", "ему", "от", "у", "она", "но", "так", "все", "было", "что", "и", "в", "его", "как", "из", "еще", "за", "это", "бы", "вы", "то", "он", "же", "по", "ее", "это", "в", "с", "и", "который", "свой", "весь", "хотя", "вообще", "ох", "всё", "ты", "который", "которые", "ежели", "очень", "бы", "что-то", "—", "…", "— ", " —")

# Очистка текста и создание токенов
tokens <- tokens(corpus, 
                 remove_punct = TRUE,  # Удаление знаков препинания
                 remove_numbers = TRUE,  # Удаление чисел
                 remove_symbols = TRUE,  # Удаление символов
                 remove_separators = TRUE)  # Удаление разделителей
cat("Токены созданы\n")

# Приведение токенов к нижнему регистру и удаление своих стоп-слов
tokens <- tokens_tolower(tokens)
tokens <- tokens_remove(tokens, my_stopwords)  # Удаление своих стоп-слов
cat("Токены приведены к нижнему регистру и очищены\n")

# Удаление пустых токенов
tokens <- tokens[ntoken(tokens) > 0]
cat("Пустые токены удалены\n")

# Проверка структуры токенов
str(tokens)

# Создание документ-термин матрицы (DTM)
dtm <- dfm(tokens)
cat("DTM создан\n")

# Преобразование DTM в data.frame
term_matrix_df <- convert(dtm, to = "data.frame")
cat("DTM преобразован в data.frame\n")

# Вывод первых строк data.frame для проверки
# head(term_matrix_df)


  В наличии есть бинарная версия, но исходники новее:
         binary source needs_compilation
quanteda  4.1.0  4.2.0              TRUE

  Binaries will be installed
пакет 'quanteda' успешно распакован, MD5-суммы проверены

Скачанные бинарные пакеты находятся в
	C:\Users\alexewd\AppData\Local\Temp\RtmpKE8BGb\downloaded_packages
пакет 'quanteda.textstats' успешно распакован, MD5-суммы проверены

Скачанные бинарные пакеты находятся в
	C:\Users\alexewd\AppData\Local\Temp\RtmpKE8BGb\downloaded_packages


Package version: 4.1.0
Unicode version: 15.1
ICU version: 74.1

Parallel computing: 8 of 8 threads used.

See https://quanteda.io for tutorials and examples.



Длина text_data:  21928 
Пропущенные значения в text_data:  FALSE 
Корпус создан
Токены созданы
Токены приведены к нижнему регистру и очищены
Пустые токены удалены
List of 10330
 $ text1    : chr "обрыв"
 $ text3    : chr [1:2] "часть" "первая"
 $ text5    : chr "i"
 $ text7    : chr [1:18] "господина" "сидели" "небрежно" "убранной" ...
 $ text9    : chr [1:8] "первый" "борис" "павлович" "райский" ...
 $ text11   : chr [1:70] "бориса" "павловича" "живая" "чрезвычайно" ...
 $ text13   : chr [1:32] "легко" "угадать" "лицу" "ту" ...
 $ text15   : chr [1:8] "райский" "одет" "домашнее" "серенькое" ...
 $ text17   : chr [1:21] "иван" "иванович" "напротив" "черном" ...
 $ text19   : chr [1:22] "смышленый" "взгляд" "неглупые" "губы" ...
 $ text21   : chr [1:23] "лице" "прочесть" "покойную" "уверенность" ...
 $ text23   : chr [1:47] "представитель" "большинства" "уроженцев" "универсального" ...
 $ text25   : chr [1:37] "незнание" "отсутствие" "убеждения" "облечено" ...
 $ text27   : chr [1:32] 

In [12]:
# Создание DFM для термина "любовь"
term_love <- dfm_select(dtm, pattern = "любовь")

# Пример анализа ассоциаций терминов
associations <- textstat_simil(dtm, y = term_love, margin = "features", method = "correlation")

# Преобразование результата в data.frame
assoc_df <- as.data.frame(as.table(as.matrix(associations)))
assoc_df <- assoc_df[order(-assoc_df$Freq), ]  # Сортировка по убыванию корреляции
colnames(assoc_df) <- c("term", "correlation")
head(assoc_df,20)

Unnamed: 0_level_0,term,correlation,NA
Unnamed: 0_level_1,<fct>,<fct>,<dbl>
2887,любовь,любовь,1.0
26374,обставлял,любовь,0.2929318
26376,декораций,любовь,0.2929318
26377,обставила,любовь,0.2929318
26379,осмысливая,любовь,0.2929318
26380,нравственным,любовь,0.2929318
26381,разуме,любовь,0.2929318
26382,отделившую,любовь,0.2929318
26383,человеческих,любовь,0.2929318
26385,широта,любовь,0.2929318


In [6]:
tail(assoc_df)

Unnamed: 0_level_0,term,correlation,NA
Unnamed: 0_level_1,<fct>,<fct>,<dbl>
845,хочу,любовь,-0.008990201
251,немного,любовь,-0.009104635
1133,тихо,любовь,-0.009744843
2434,спросила,любовь,-0.01015537
3569,голову,любовь,-0.010711676
610,спросил,любовь,-0.011902857


In [11]:
# Пример частотного анализа
term_freq <- colSums(as.matrix(dtm))
term_freq_df <- data.frame(term = names(term_freq), freq = term_freq)
term_freq_df <- term_freq_df[order(term_freq_df$freq, decreasing = TRUE), ]
top_terms <- head(term_freq_df, 20)
head(top_terms,20)

Unnamed: 0_level_0,term,freq
Unnamed: 0_level_1,<chr>,<dbl>
райский,райский,968
бабушка,бабушка,720
вера,вера,607
фр,фр,318
тебе,тебе,299
марфинька,марфинька,289
татьяна,татьяна,280
марковна,марковна,279
глаза,глаза,275
руку,руку,253


In [10]:
# Создание DFM для термина "любовь"
term_love <- dfm_select(dtm, pattern = "любовь")

# Пример анализа ассоциаций терминов
associations <- textstat_simil(dtm, y = term_love, margin = "features", method = "correlation")

# Преобразование результата в data.frame
assoc_df <- as.data.frame(as.table(as.matrix(associations)))
assoc_df <- assoc_df[order(-assoc_df$Freq), ]  # Сортировка по убыванию корреляции
colnames(assoc_df) <- c("term", "correlation")
head(assoc_df,30)

Unnamed: 0_level_0,term,correlation,NA
Unnamed: 0_level_1,<fct>,<fct>,<dbl>
2887,любовь,любовь,1.0
26374,обставлял,любовь,0.2929318
26376,декораций,любовь,0.2929318
26377,обставила,любовь,0.2929318
26379,осмысливая,любовь,0.2929318
26380,нравственным,любовь,0.2929318
26381,разуме,любовь,0.2929318
26382,отделившую,любовь,0.2929318
26383,человеческих,любовь,0.2929318
26385,широта,любовь,0.2929318


In [1]:
# Установка и загрузка необходимых библиотек
install.packages("quanteda")
install.packages("quanteda.textstats")

library(quanteda)
library(quanteda.textstats)

# Чтение файла
text_data <- readLines('f:/chatepc/chatalx/work/data/obriv.txt', encoding = "UTF-8")
cat("Длина text_data: ", length(text_data), "\n")

# Проверка на пропущенные значения в текстовых данных
if (anyNA(text_data)) {
  text_data <- text_data[!is.na(text_data)]
}
cat("Пропущенные значения в text_data: ", anyNA(text_data), "\n")

# Создание корпуса текста с использованием quanteda
corpus <- corpus(text_data)
cat("Корпус создан\n")

# Создание списка своих стоп-слов
my_stopwords <- c(stopwords("ru"), "не", "на", "только", "с", "к", "я", "о", "а", "ему", "от", "у", "она", "но", "так", "все", "было", "что", "и", "в", "его", "как", "из", "еще", "за", "это", "бы", "вы", "то", "он", "же", "по", "ее", "это", "в", "с", "и", "который", "свой", "весь", "хотя", "вообще", "ох", "всё", "ты", "который", "которые", "ежели", "очень", "бы", "что-то", "—", "…", "— ", " —")

# Очистка текста и создание токенов
tokens <- tokens(corpus, 
                 remove_punct = TRUE,  # Удаление знаков препинания
                 remove_numbers = TRUE,  # Удаление чисел
                 remove_symbols = TRUE,  # Удаление символов
                 remove_separators = TRUE)  # Удаление разделителей
cat("Токены созданы\n")

# Приведение токенов к нижнему регистру и удаление своих стоп-слов
tokens <- tokens_tolower(tokens)
tokens <- tokens_remove(tokens, my_stopwords)  # Удаление своих стоп-слов
cat("Токены приведены к нижнему регистру и очищены\n")

# Проверка структуры токенов
str(tokens)

# Создание документ-термин матрицы (DTM)
dtm <- dfm(tokens)
cat("DTM создан\n")

# Преобразование DTM в data.frame
term_matrix_df <- convert(dtm, to = "data.frame")
cat("DTM преобразован в data.frame\n")

# Вывод первых строк data.frame для проверки
head(term_matrix_df)


  В наличии есть бинарная версия, но исходники новее:
         binary source needs_compilation
quanteda  3.3.0  4.2.0              TRUE

  Binaries will be installed
package 'quanteda' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\alexewd\AppData\Local\Temp\Rtmp2vnHsW\downloaded_packages


устанавливаю также зависимость 'quanteda'





  В наличии есть бинарные версии, но исходники новее:
                   binary source needs_compilation
quanteda            3.3.0  4.2.0              TRUE
quanteda.textstats 0.96.1 0.97.2              TRUE

  Binaries will be installed
package 'quanteda' successfully unpacked and MD5 sums checked
package 'quanteda.textstats' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\alexewd\AppData\Local\Temp\Rtmp2vnHsW\downloaded_packages


"пакет 'quanteda' был собран под R версии 4.1.3"
Package version: 3.3.0
Unicode version: 15.1
ICU version: 74.1

Parallel computing: 8 of 8 threads used.

See https://quanteda.io for tutorials and examples.

"пакет 'quanteda.textstats' был собран под R версии 4.1.3"


Длина text_data:  21928 
Пропущенные значения в text_data:  FALSE 
Корпус создан
Токены созданы
Токены приведены к нижнему регистру и очищены
List of 21928
 $ text1    : chr "обрыв"
 $ text2    : chr(0) 
 $ text3    : chr [1:2] "часть" "первая"
 $ text4    : chr(0) 
 $ text5    : chr "i"
 $ text6    : chr(0) 
 $ text7    : chr [1:18] "господина" "сидели" "небрежно" "убранной" ...
 $ text8    : chr(0) 
 $ text9    : chr [1:8] "первый" "борис" "павлович" "райский" ...
 $ text10   : chr(0) 
 $ text11   : chr [1:70] "бориса" "павловича" "живая" "чрезвычайно" ...
 $ text12   : chr(0) 
 $ text13   : chr [1:32] "легко" "угадать" "лицу" "ту" ...
 $ text14   : chr(0) 
 $ text15   : chr [1:8] "райский" "одет" "домашнее" "серенькое" ...
 $ text16   : chr(0) 
 $ text17   : chr [1:21] "иван" "иванович" "напротив" "черном" ...
 $ text18   : chr(0) 
 $ text19   : chr [1:22] "смышленый" "взгляд" "неглупые" "губы" ...
 $ text20   : chr(0) 
 $ text21   : chr [1:23] "лице" "прочесть" "покойную" "уверенно

ERROR: Error in if (...length() && any(...names() == "Dimnames")) .Object@Dimnames <- fixupDN(.Object@Dimnames): пропущенное значение, а нужно TRUE/FALSE


In [6]:
library(quanteda)
library(quanteda.textstats)

# Чтение файла
text_data <- readLines('f:/chatepc/chatalx/work/data/obriv.txt', encoding = "UTF-8")

# Проверка на пропущенные значения в текстовых данных
if (anyNA(text_data)) {
  text_data <- text_data[!is.na(text_data)]
}

# Создание корпуса текста с использованием quanteda
corpus <- corpus(text_data)

# Создание списка своих стоп-слов
my_stopwords <- c(stopwords("ru"), "не", "на", "только", "с", "к", "я", "о", "а", "ему", "от", "у", "она", "но", "так", "все", "было", "что", "и", "в", "его", "как", "из", "еще", "за", "это", "бы", "вы", "то", "он", "же", "по", "ее", "это", "в", "с", "и", "который", "свой", "весь", "хотя", "вообще", "ох", "всё", "ты", "который", "которые", "ежели", "очень", "бы", "что-то", "—", "…", "— ", " —")

# Очистка текста и создание токенов
tokens <- tokens(corpus, 
                 remove_punct = TRUE,  # Удаление знаков препинания
                 remove_numbers = TRUE,  # Удаление чисел
                 remove_symbols = TRUE,  # Удаление символов
                 remove_separators = TRUE)  # Удаление разделителей

# Приведение токенов к нижнему регистру и удаление своих стоп-слов
tokens <- tokens_tolower(tokens)
tokens <- tokens_remove(tokens, my_stopwords)  # Удаление своих стоп-слов

# Проверка структуры токенов
str(tokens)

# Создание документ-термин матрицы (DTM)
dtm <- dfm(tokens)

# Преобразование DTM в data.frame
term_matrix_df <- convert(dtm, to = "data.frame")

# Вывод первых строк data.frame для проверки
head(term_matrix_df)

List of 21928
 $ text1    : chr "обрыв"
 $ text2    : chr(0) 
 $ text3    : chr [1:2] "часть" "первая"
 $ text4    : chr(0) 
 $ text5    : chr "i"
 $ text6    : chr(0) 
 $ text7    : chr [1:18] "господина" "сидели" "небрежно" "убранной" ...
 $ text8    : chr(0) 
 $ text9    : chr [1:8] "первый" "борис" "павлович" "райский" ...
 $ text10   : chr(0) 
 $ text11   : chr [1:70] "бориса" "павловича" "живая" "чрезвычайно" ...
 $ text12   : chr(0) 
 $ text13   : chr [1:32] "легко" "угадать" "лицу" "ту" ...
 $ text14   : chr(0) 
 $ text15   : chr [1:8] "райский" "одет" "домашнее" "серенькое" ...
 $ text16   : chr(0) 
 $ text17   : chr [1:21] "иван" "иванович" "напротив" "черном" ...
 $ text18   : chr(0) 
 $ text19   : chr [1:22] "смышленый" "взгляд" "неглупые" "губы" ...
 $ text20   : chr(0) 
 $ text21   : chr [1:23] "лице" "прочесть" "покойную" "уверенность" ...
 $ text22   : chr(0) 
 $ text23   : chr [1:47] "представитель" "большинства" "уроженцев" "универсального" ...
 $ text24   : chr(0) 
 

ERROR: Error in if (...length() && any(...names() == "Dimnames")) .Object@Dimnames <- fixupDN(.Object@Dimnames): пропущенное значение, а нужно TRUE/FALSE


In [8]:
Traceback:

ERROR: Error in parse(text = x, srcfile = src): <text>:2:0: неожиданный конец ввода
1: Traceback:
   ^


In [4]:
library(quanteda)
library(quanteda.textstats)
library(progress)

# Чтение файла
text_data <- readLines('f:/chatepc/chatalx/work/data/obriv.txt', encoding = "UTF-8")

# Создание прогрессбара
# total_steps <- 6
# pb <- progress_bar$new(
#   format = "  processing [:bar] :percent eta: :eta",
#   total = total_steps, clear = FALSE, width = 60
# )

# Шаг 1: Проверка на пропущенные значения в текстовых данных
# pb$tick()
if (anyNA(text_data)) {
  text_data <- text_data[!is.na(text_data)]
}

# Шаг 2: Создание корпуса текста с использованием quanteda
# pb$tick()
corpus <- corpus(text_data)

# Создание списка своих стоп-слов
my_stopwords <- c(stopwords("ru"), "фр","тебе","веры", "сапросил", "говорил","говорила","ах","бабушки","вера", "райского", "марковна","райский", "татьяна", "марфинька", "марк","бабушка","сказал","сказала", "не", "на", "только", "с", "к", "я", "о", "а", "ему", "от", "у", "она", "но", "так", "все", "было", "что", "и", "в", "его", "как", "из", "еще", "за", "это", "бы", "вы", "то", "он", "же", "по", "ее", "это", "в", "с", "и", "который", "свой", "весь", "хотя", "вообще", "ох", "всё", "ты", "который", "которые", "ежели", "очень", "бы", "что-то", "—", "…", "— ", " —")

# Шаг 3: Очистка текста и создание токенов
# pb$tick()
tokens <- tokens(corpus, 
                 remove_punct = TRUE,  # Удаление знаков препинания
                 remove_numbers = TRUE,  # Удаление чисел
                 remove_symbols = TRUE,  # Удаление символов
                 remove_separators = TRUE)  # Удаление разделителей

# Шаг 4: Приведение токенов к нижнему регистру и удаление своих стоп-слов
# pb$tick()
tokens <- tokens_tolower(tokens)
tokens <- tokens_remove(tokens, my_stopwords)  # Удаление своих стоп-слов

# Проверка на пропущенные значения в токенах
if (anyNA(tokens)) {
  tokens <- tokens[!is.na(tokens)]
}

# Проверка структуры токенов
str(tokens)

# Шаг 5: Создание документ-термин матрицы (DTM)
# pb$tick()
dtm <- dfm(tokens)

# Шаг 6: Преобразование DTM в data.frame
# pb$tick()
term_matrix_df <- convert(dtm, to = "data.frame")

# Вывод первых строк data.frame для проверки
# head(term_matrix_df)
# Создание DFM для термина "любовь"
term_love <- dfm_select(dtm, pattern = "любовь")

# Пример анализа ассоциаций терминов
associations <- textstat_simil(dtm, y = term_love, margin = "features", method = "correlation")

# Преобразование результата в data.frame
assoc_df <- as.data.frame(as.table(as.matrix(associations)))
assoc_df <- assoc_df[order(-assoc_df$Freq), ]  # Сортировка по убыванию корреляции
colnames(assoc_df) <- c("term", "correlation")
print(assoc_df)


# Пример частотного анализа
term_freq <- colSums(as.matrix(dtm))
term_freq_df <- data.frame(term = names(term_freq), freq = term_freq)
term_freq_df <- term_freq_df[order(term_freq_df$freq, decreasing = TRUE), ]
top_terms <- head(term_freq_df, 20)
print(top_terms)

# Создание DFM для термина "любовь"
term_love <- dfm_select(dtm, pattern = "любовь")

# Пример анализа ассоциаций терминов
associations <- textstat_simil(dtm, y = term_love, margin = "features", method = "correlation")

# Преобразование результата в data.frame
assoc_df <- as.data.frame(as.table(as.matrix(associations)))
assoc_df <- assoc_df[order(-assoc_df$Freq), ]  # Сортировка по убыванию корреляции
colnames(assoc_df) <- c("term", "correlation")
print(assoc_df)



List of 21928
 $ text1    : chr "обрыв"
 $ text2    : chr(0) 
 $ text3    : chr [1:2] "часть" "первая"
 $ text4    : chr(0) 
 $ text5    : chr "i"
 $ text6    : chr(0) 
 $ text7    : chr [1:18] "господина" "сидели" "небрежно" "убранной" ...
 $ text8    : chr(0) 
 $ text9    : chr [1:7] "первый" "борис" "павлович" "второй" ...
 $ text10   : chr(0) 
 $ text11   : chr [1:70] "бориса" "павловича" "живая" "чрезвычайно" ...
 $ text12   : chr(0) 
 $ text13   : chr [1:32] "легко" "угадать" "лицу" "ту" ...
 $ text14   : chr(0) 
 $ text15   : chr [1:7] "одет" "домашнее" "серенькое" "пальто" ...
 $ text16   : chr(0) 
 $ text17   : chr [1:21] "иван" "иванович" "напротив" "черном" ...
 $ text18   : chr(0) 
 $ text19   : chr [1:22] "смышленый" "взгляд" "неглупые" "губы" ...
 $ text20   : chr(0) 
 $ text21   : chr [1:23] "лице" "прочесть" "покойную" "уверенность" ...
 $ text22   : chr(0) 
 $ text23   : chr [1:47] "представитель" "большинства" "уроженцев" "универсального" ...
 $ text24   : chr(0) 
 $ 

ERROR: Error in if (...length() && any(...names() == "Dimnames")) .Object@Dimnames <- fixupDN(.Object@Dimnames): пропущенное значение, а нужно TRUE/FALSE


In [3]:
# Установка и загрузка необходимых библиотек
# install.packages("quanteda")
# install.packages("quanteda.textstats")
# install.packages("progress")

library(quanteda)
library(quanteda.textstats)
library(progress)

# Чтение файла
text_data <- readLines('f:/chatepc/chatalx/work/data/obriv.txt', encoding = "UTF-8")

# Создание прогрессбара
total_steps <- 6
pb <- progress_bar$new(
  format = "  processing [:bar] :percent eta: :eta",
  total = total_steps, clear = FALSE, width = 60
)

# Шаг 1: Проверка на пропущенные значения в текстовых данных
pb$tick()
if (anyNA(text_data)) {
  text_data <- text_data[!is.na(text_data)]
}

# Шаг 2: Создание корпуса текста с использованием quanteda
pb$tick()
corpus <- corpus(text_data)

# Создание списка своих стоп-слов
my_stopwords <- c(stopwords("ru"), "не", "на", "только", "с", "к", "я", "о", "а", "ему", "от", "у", "она", "но", "так", "все", "было", "что", "и", "в", "его", "как", "из", "еще", "за", "это", "бы", "вы", "то", "он", "же", "по", "ее", "это", "в", "с", "и", "который", "свой", "весь", "хотя", "вообще", "ох", "всё", "ты", "который", "которые", "ежели", "очень", "бы", "что-то", "—", "…", "— ", " —")

# Шаг 3: Очистка текста и создание токенов
pb$tick()
tokens <- tokens(corpus, 
                 remove_punct = TRUE,  # Удаление знаков препинания
                 remove_numbers = TRUE,  # Удаление чисел
                 remove_symbols = TRUE,  # Удаление символов
                 remove_separators = TRUE)  # Удаление разделителей

# Шаг 4: Приведение токенов к нижнему регистру и удаление своих стоп-слов
pb$tick()
tokens <- tokens_tolower(tokens)
tokens <- tokens_remove(tokens, my_stopwords)  # Удаление своих стоп-слов

# Проверка на пропущенные значения в токенах
if (anyNA(tokens)) {
  tokens <- tokens[!is.na(tokens)]
}

# Проверка структуры токенов
str(tokens)

# Шаг 5: Создание документ-термин матрицы (DTM)
pb$tick()
dtm <- dfm(tokens)

# Шаг 6: Преобразование DTM в data.frame
pb$tick()
term_matrix_df <- convert(dtm, to = "data.frame")

# Вывод первых строк data.frame для проверки
head(term_matrix_df)

<progress_bar>
  Public:
    clone: function (deep = FALSE) 
    finished: FALSE
    initialize: function (format = "[:bar] :percent", total = 100, width = getOption("width") - 
    message: function (msg, set_width = TRUE) 
    terminate: function () 
    tick: function (len = 1, tokens = list()) 
    update: function (ratio, tokens = list()) 
  Private:
    callback: function (self) 
    chars: list
    clear: FALSE
    clear_line: function (width) 
    complete: FALSE
    current: 1
    cursor_to_start: function () 
    first: FALSE
    format:   processing [:bar] :percent eta: :eta
    has_token: FALSE FALSE FALSE FALSE TRUE TRUE FALSE FALSE TRUE FALSE ...
    last_draw: 
    message_class: NULL
    progress_message: function (..., domain = NULL, appendLF = TRUE) 
    ratio: function () 
    render: function (tokens) 
    show_after: 0.2
    spin: function () 
    start: 2025-01-08 19:09:21
    supported: TRUE
    total: 6
    toupdate: FALSE
    width: 60

<progress_bar>
  Public:
    clone: function (deep = FALSE) 
    finished: FALSE
    initialize: function (format = "[:bar] :percent", total = 100, width = getOption("width") - 
    message: function (msg, set_width = TRUE) 
    terminate: function () 
    tick: function (len = 1, tokens = list()) 
    update: function (ratio, tokens = list()) 
  Private:
    callback: function (self) 
    chars: list
    clear: FALSE
    clear_line: function (width) 
    complete: FALSE
    current: 2
    cursor_to_start: function () 
    first: FALSE
    format:   processing [:bar] :percent eta: :eta
    has_token: FALSE FALSE FALSE FALSE TRUE TRUE FALSE FALSE TRUE FALSE ...
    last_draw: 
    message_class: NULL
    progress_message: function (..., domain = NULL, appendLF = TRUE) 
    ratio: function () 
    render: function (tokens) 
    show_after: 0.2
    spin: function () 
    start: 2025-01-08 19:09:21
    supported: TRUE
    total: 6
    toupdate: FALSE
    width: 60

<progress_bar>
  Public:
    clone: function (deep = FALSE) 
    finished: FALSE
    initialize: function (format = "[:bar] :percent", total = 100, width = getOption("width") - 
    message: function (msg, set_width = TRUE) 
    terminate: function () 
    tick: function (len = 1, tokens = list()) 
    update: function (ratio, tokens = list()) 
  Private:
    callback: function (self) 
    chars: list
    clear: FALSE
    clear_line: function (width) 
    complete: FALSE
    current: 3
    cursor_to_start: function () 
    first: FALSE
    format:   processing [:bar] :percent eta: :eta
    has_token: FALSE FALSE FALSE FALSE TRUE TRUE FALSE FALSE TRUE FALSE ...
    last_draw: 
    message_class: NULL
    progress_message: function (..., domain = NULL, appendLF = TRUE) 
    ratio: function () 
    render: function (tokens) 
    show_after: 0.2
    spin: function () 
    start: 2025-01-08 19:09:21
    supported: TRUE
    total: 6
    toupdate: FALSE
    width: 60




<progress_bar>
  Public:
    clone: function (deep = FALSE) 
    finished: FALSE
    initialize: function (format = "[:bar] :percent", total = 100, width = getOption("width") - 
    message: function (msg, set_width = TRUE) 
    terminate: function () 
    tick: function (len = 1, tokens = list()) 
    update: function (ratio, tokens = list()) 
  Private:
    callback: function (self) 
    chars: list
    clear: FALSE
    clear_line: function (width) 
    complete: FALSE
    current: 4
    cursor_to_start: function () 
    first: FALSE
    format:   processing [:bar] :percent eta: :eta
    has_token: FALSE FALSE FALSE FALSE TRUE TRUE FALSE FALSE TRUE FALSE ...
    message_class: NULL
    progress_message: function (..., domain = NULL, appendLF = TRUE) 
    ratio: function () 
    render: function (tokens) 
    show_after: 0.2
    spin: function () 
    start: 2025-01-08 19:09:21
    supported: TRUE
    total: 6
    toupdate: TRUE
    width: 60

List of 21928
 $ text1    : chr "обрыв"
 $ text2    : chr(0) 
 $ text3    : chr [1:2] "часть" "первая"
 $ text4    : chr(0) 
 $ text5    : chr "i"
 $ text6    : chr(0) 
 $ text7    : chr [1:18] "господина" "сидели" "небрежно" "убранной" ...
 $ text8    : chr(0) 
 $ text9    : chr [1:8] "первый" "борис" "павлович" "райский" ...
 $ text10   : chr(0) 
 $ text11   : chr [1:70] "бориса" "павловича" "живая" "чрезвычайно" ...
 $ text12   : chr(0) 
 $ text13   : chr [1:32] "легко" "угадать" "лицу" "ту" ...
 $ text14   : chr(0) 
 $ text15   : chr [1:8] "райский" "одет" "домашнее" "серенькое" ...
 $ text16   : chr(0) 
 $ text17   : chr [1:21] "иван" "иванович" "напротив" "черном" ...
 $ text18   : chr(0) 
 $ text19   : chr [1:22] "смышленый" "взгляд" "неглупые" "губы" ...
 $ text20   : chr(0) 
 $ text21   : chr [1:23] "лице" "прочесть" "покойную" "уверенность" ...
 $ text22   : chr(0) 
 $ text23   : chr [1:47] "представитель" "большинства" "уроженцев" "универсального" ...
 $ text24   : chr(0) 
 




<progress_bar>
  Public:
    clone: function (deep = FALSE) 
    finished: FALSE
    initialize: function (format = "[:bar] :percent", total = 100, width = getOption("width") - 
    message: function (msg, set_width = TRUE) 
    terminate: function () 
    tick: function (len = 1, tokens = list()) 
    update: function (ratio, tokens = list()) 
  Private:
    callback: function (self) 
    chars: list
    clear: FALSE
    clear_line: function (width) 
    complete: FALSE
    current: 5
    cursor_to_start: function () 
    first: FALSE
    format:   processing [:bar] :percent eta: :eta
    has_token: FALSE FALSE FALSE FALSE TRUE TRUE FALSE FALSE TRUE FALSE ...
    message_class: NULL
    progress_message: function (..., domain = NULL, appendLF = TRUE) 
    ratio: function () 
    render: function (tokens) 
    show_after: 0.2
    spin: function () 
    start: 2025-01-08 19:09:21
    supported: TRUE
    total: 6
    toupdate: TRUE
    width: 60

ERROR: Error in if (...length() && any(...names() == "Dimnames")) .Object@Dimnames <- fixupDN(.Object@Dimnames): пропущенное значение, а нужно TRUE/FALSE


In [2]:
library(quanteda)
library(quanteda.textstats)
library(progress)
# Чтение файла
text_data <- readLines('f:/chatepc/chatalx/work/data/obriv.txt', encoding = "UTF-8")

# Создание корпуса текста с использованием quanteda
corpus <- corpus(text_data)

# Создание списка своих стоп-слов
my_stopwords <- c(stopwords("ru"), "не","на","только","с","к","я","о","а","ему","от","у","она","но","так","все","было","что","и","в","его","как","из","еще","за","это","бы","вы","то","он","же","по","ее","это", "в", "с", "и", "который", "свой", "весь", "хотя", "вообще", "ох", "всё", "ты","который","которые","ежели", "очень", "бы", "что-то", "—", "…","— "," —")

# Очистка текста и создание токенов
tokens <- tokens(corpus, 
                 remove_punct = TRUE,  # Удаление знаков препинания
                 remove_numbers = TRUE,  # Удаление чисел
                 remove_symbols = TRUE,  # Удаление символов
                 remove_separators = TRUE)  # Удаление разделителей

# Приведение токенов к нижнему регистру и удаление своих стоп-слов
tokens <- tokens_tolower(tokens)
tokens <- tokens_remove(tokens, my_stopwords)  # Удаление своих стоп-слов

# Создание документ-термин матрицы (DTM)
dtm <- dfm(tokens)

# Преобразование DTM в data.frame
term_matrix_df <- convert(dtm, to = "data.frame")

# Вывод первых строк полученной документ-термин матрицы
print(head(dtm))
###########################
# Создание DFM для термина "любовь"
term_love <- dfm_select(dtm, pattern = "любовь")

# Пример анализа ассоциаций терминов
associations <- textstat_simil(dtm, y = term_love, margin = "features", method = "correlation")

# Преобразование результата в data.frame
assoc_df <- as.data.frame(as.table(as.matrix(associations)))
assoc_df <- assoc_df[order(-assoc_df$Freq), ]  # Сортировка по убыванию корреляции
colnames(assoc_df) <- c("term", "correlation")
print(assoc_df)


# Пример частотного анализа
term_freq <- colSums(as.matrix(dtm))
term_freq_df <- data.frame(term = names(term_freq), freq = term_freq)
term_freq_df <- term_freq_df[order(term_freq_df$freq, decreasing = TRUE), ]
top_terms <- head(term_freq_df, 20)
print(top_terms)

# Создание DFM для термина "любовь"
term_love <- dfm_select(dtm, pattern = "любовь")

# Пример анализа ассоциаций терминов
associations <- textstat_simil(dtm, y = term_love, margin = "features", method = "correlation")

# Преобразование результата в data.frame
assoc_df <- as.data.frame(as.table(as.matrix(associations)))
assoc_df <- assoc_df[order(-assoc_df$Freq), ]  # Сортировка по убыванию корреляции
colnames(assoc_df) <- c("term", "correlation")
print(assoc_df)


Package version: 3.3.0
Unicode version: 15.1
ICU version: 74.1

Parallel computing: 8 of 8 threads used.

See https://quanteda.io for tutorials and examples.



ERROR: Error in if (...length() && any(...names() == "Dimnames")) .Object@Dimnames <- fixupDN(.Object@Dimnames): пропущенное значение, а нужно TRUE/FALSE


In [2]:
library(quanteda)
library(quanteda.textstats)
library(progress)

# Чтение файла
text_data <- readLines('f:/chatepc/chatalx/work/data/obriv.txt', encoding = "UTF-8")

Package version: 3.3.0
Unicode version: 15.1
ICU version: 74.1

Parallel computing: 8 of 8 threads used.

See https://quanteda.io for tutorials and examples.



In [5]:
library(quanteda)
library(quanteda.textstats)
library(progress)
# Чтение файла
text_data <- readLines('f:/chatepc/chatalx/work/data/obriv.txt', encoding = "UTF-8")

# Создание корпуса текста с использованием quanteda
corpus <- corpus(text_data)

# Создание списка своих стоп-слов
my_stopwords <- c(stopwords("ru"), "не","на","только","с","к","я","о","а","ему","от","у","она","но","так","все","было","что","и","в","его","как","из","еще","за","это","бы","вы","то","он","же","по","ее","это", "в", "с", "и", "который", "свой", "весь", "хотя", "вообще", "ох", "всё", "ты","который","которые","ежели", "очень", "бы", "что-то", "—", "…","— "," —")

# Очистка текста и создание токенов
tokens <- tokens(corpus, 
                 remove_punct = TRUE,  # Удаление знаков препинания
                 remove_numbers = TRUE,  # Удаление чисел
                 remove_symbols = TRUE,  # Удаление символов
                 remove_separators = TRUE)  # Удаление разделителей

# Приведение токенов к нижнему регистру и удаление своих стоп-слов
tokens <- tokens_tolower(tokens)
tokens <- tokens_remove(tokens, my_stopwords)  # Удаление своих стоп-слов

# Создание документ-термин матрицы (DTM)
dtm <- dfm(tokens)


ERROR: Error in if (...length() && any(...names() == "Dimnames")) .Object@Dimnames <- fixupDN(.Object@Dimnames): пропущенное значение, а нужно TRUE/FALSE


In [None]:
# Преобразование DTM в data.frame
term_matrix_df <- convert(dtm, to = "data.frame")

# Вывод первых строк полученной документ-термин матрицы
print(head(dtm))
###########################
# Создание DFM для термина "любовь"
term_love <- dfm_select(dtm, pattern = "любовь")

# Пример анализа ассоциаций терминов
associations <- textstat_simil(dtm, y = term_love, margin = "features", method = "correlation")

# Преобразование результата в data.frame
assoc_df <- as.data.frame(as.table(as.matrix(associations)))
assoc_df <- assoc_df[order(-assoc_df$Freq), ]  # Сортировка по убыванию корреляции
colnames(assoc_df) <- c("term", "correlation")
print(assoc_df)


# Пример частотного анализа
term_freq <- colSums(as.matrix(dtm))
term_freq_df <- data.frame(term = names(term_freq), freq = term_freq)
term_freq_df <- term_freq_df[order(term_freq_df$freq, decreasing = TRUE), ]
top_terms <- head(term_freq_df, 20)
print(top_terms)


In [4]:
# Создание DFM для термина "любовь"
term_love <- dfm_select(dtm, pattern = "любовь")

# Пример анализа ассоциаций терминов
associations <- textstat_simil(dtm, y = term_love, margin = "features", method = "correlation")

# Преобразование результата в data.frame
assoc_df <- as.data.frame(as.table(as.matrix(associations)))
assoc_df <- assoc_df[order(-assoc_df$Freq), ]  # Сортировка по убыванию корреляции
colnames(assoc_df) <- c("term", "correlation")
print(assoc_df)


# Пример частотного анализа
term_freq <- colSums(as.matrix(dtm))
term_freq_df <- data.frame(term = names(term_freq), freq = term_freq)
term_freq_df <- term_freq_df[order(term_freq_df$freq, decreasing = TRUE), ]
top_terms <- head(term_freq_df, 20)
print(top_terms)

# Создание DFM для термина "любовь"
term_love <- dfm_select(dtm, pattern = "любовь")

# Пример анализа ассоциаций терминов
associations <- textstat_simil(dtm, y = term_love, margin = "features", method = "correlation")

# Преобразование результата в data.frame
assoc_df <- as.data.frame(as.table(as.matrix(associations)))
assoc_df <- assoc_df[order(-assoc_df$Freq), ]  # Сортировка по убыванию корреляции
colnames(assoc_df) <- c("term", "correlation")
print(assoc_df)

ERROR: Error in dfm_select(dtm, pattern = "любовь"): объект 'dtm' не найден


In [2]:
library(quanteda)
library(quanteda.textstats)
library(progress)

# Чтение файла
text_data <- readLines('f:/chatepc/chatalx/work/data/obriv.txt', encoding = "UTF-8")

# Проверка на пропущенные значения в текстовых данных
if (anyNA(text_data)) {
  text_data <- text_data[!is.na(text_data)]
}

# Создание корпуса текста с использованием quanteda
corpus <- corpus(text_data)

# Создание списка своих стоп-слов
my_stopwords <- c(stopwords("ru"), "не","на","только","с","к","я","о","а","ему","от","у","она","но","так","все","было","что","и","в","его","как","из","еще","за","это","бы","вы","то","он","же","по","ее","это", "в", "с", "и", "который", "свой", "весь", "хотя", "вообще", "ох", "всё", "ты","который","которые","ежели", "очень", "бы", "что-то", "—", "…","— "," —")

# Очистка текста и создание токенов
tokens <- tokens(corpus, 
                 remove_punct = TRUE,  # Удаление знаков препинания
                 remove_numbers = TRUE,  # Удаление чисел
                 remove_symbols = TRUE,  # Удаление символов
                 remove_separators = TRUE)  # Удаление разделителей

# Приведение токенов к нижнему регистру и удаление своих стоп-слов
tokens <- tokens_tolower(tokens)
tokens <- tokens_remove(tokens, my_stopwords)  # Удаление своих стоп-слов

# Проверка на пропущенные значения в токенах
if (anyNA(tokens)) {
  tokens <- tokens[!is.na(tokens)]
}

# Проверка структуры токенов
str(tokens)

# Создание документ-термин матрицы (DTM)
dtm <- dfm(tokens)

# Преобразование DTM в data.frame
term_matrix_df <- convert(dtm, to = "data.frame")

# Вывод первых строк data.frame для проверки
head(term_matrix_df)

List of 21928
 $ text1    : chr "обрыв"
 $ text2    : chr(0) 
 $ text3    : chr [1:2] "часть" "первая"
 $ text4    : chr(0) 
 $ text5    : chr "i"
 $ text6    : chr(0) 
 $ text7    : chr [1:18] "господина" "сидели" "небрежно" "убранной" ...
 $ text8    : chr(0) 
 $ text9    : chr [1:8] "первый" "борис" "павлович" "райский" ...
 $ text10   : chr(0) 
 $ text11   : chr [1:70] "бориса" "павловича" "живая" "чрезвычайно" ...
 $ text12   : chr(0) 
 $ text13   : chr [1:32] "легко" "угадать" "лицу" "ту" ...
 $ text14   : chr(0) 
 $ text15   : chr [1:8] "райский" "одет" "домашнее" "серенькое" ...
 $ text16   : chr(0) 
 $ text17   : chr [1:21] "иван" "иванович" "напротив" "черном" ...
 $ text18   : chr(0) 
 $ text19   : chr [1:22] "смышленый" "взгляд" "неглупые" "губы" ...
 $ text20   : chr(0) 
 $ text21   : chr [1:23] "лице" "прочесть" "покойную" "уверенность" ...
 $ text22   : chr(0) 
 $ text23   : chr [1:47] "представитель" "большинства" "уроженцев" "универсального" ...
 $ text24   : chr(0) 
 

ERROR: Error in if (...length() && any(...names() == "Dimnames")) .Object@Dimnames <- fixupDN(.Object@Dimnames): пропущенное значение, а нужно TRUE/FALSE


In [9]:
# Создание прогрессбара
total_steps <- 6
pb <- progress_bar$new(
  format = "  processing [:bar] :percent eta: :eta",
  total = total_steps, clear = FALSE, width = 60
)

# Шаг 1: Создание корпуса текста с использованием quanteda
pb$tick()
corpus <- corpus(text_data)

# Создание списка своих стоп-слов
my_stopwords <- c(stopwords("ru"), "не","на","только","с","к","я","о","а","ему","от","у","она","но","так","все","было","что","и","в","его","как","из","еще","за","это","бы","вы","то","он","же","по","ее","это", "в", "с", "и", "который", "свой", "весь", "хотя", "вообще", "ох", "всё", "ты","который","которые","ежели", "очень", "бы", "что-то", "—", "…","— "," —")

# Шаг 2: Очистка текста и создание токенов
pb$tick()
tokens <- tokens(corpus, 
                 remove_punct = TRUE,  # Удаление знаков препинания
                 remove_numbers = TRUE,  # Удаление чисел
                 remove_symbols = TRUE,  # Удаление символов
                 remove_separators = TRUE)  # Удаление разделителей



<progress_bar>
  Public:
    clone: function (deep = FALSE) 
    finished: FALSE
    initialize: function (format = "[:bar] :percent", total = 100, width = getOption("width") - 
    message: function (msg, set_width = TRUE) 
    terminate: function () 
    tick: function (len = 1, tokens = list()) 
    update: function (ratio, tokens = list()) 
  Private:
    callback: function (self) 
    chars: list
    clear: FALSE
    clear_line: function (width) 
    complete: FALSE
    current: 1
    cursor_to_start: function () 
    first: FALSE
    format:   processing [:bar] :percent eta: :eta
    has_token: FALSE FALSE FALSE FALSE TRUE TRUE FALSE FALSE TRUE FALSE ...
    last_draw: 
    message_class: NULL
    progress_message: function (..., domain = NULL, appendLF = TRUE) 
    ratio: function () 
    render: function (tokens) 
    show_after: 0.2
    spin: function () 
    start: 2025-01-08 18:37:47
    supported: TRUE
    total: 6
    toupdate: FALSE
    width: 60

<progress_bar>
  Public:
    clone: function (deep = FALSE) 
    finished: FALSE
    initialize: function (format = "[:bar] :percent", total = 100, width = getOption("width") - 
    message: function (msg, set_width = TRUE) 
    terminate: function () 
    tick: function (len = 1, tokens = list()) 
    update: function (ratio, tokens = list()) 
  Private:
    callback: function (self) 
    chars: list
    clear: FALSE
    clear_line: function (width) 
    complete: FALSE
    current: 2
    cursor_to_start: function () 
    first: FALSE
    format:   processing [:bar] :percent eta: :eta
    has_token: FALSE FALSE FALSE FALSE TRUE TRUE FALSE FALSE TRUE FALSE ...
    last_draw: 
    message_class: NULL
    progress_message: function (..., domain = NULL, appendLF = TRUE) 
    ratio: function () 
    render: function (tokens) 
    show_after: 0.2
    spin: function () 
    start: 2025-01-08 18:37:47
    supported: TRUE
    total: 6
    toupdate: FALSE
    width: 60

In [10]:
# Шаг 3: Приведение токенов к нижнему регистру
pb$tick()
tokens <- tokens_tolower(tokens)




<progress_bar>
  Public:
    clone: function (deep = FALSE) 
    finished: FALSE
    initialize: function (format = "[:bar] :percent", total = 100, width = getOption("width") - 
    message: function (msg, set_width = TRUE) 
    terminate: function () 
    tick: function (len = 1, tokens = list()) 
    update: function (ratio, tokens = list()) 
  Private:
    callback: function (self) 
    chars: list
    clear: FALSE
    clear_line: function (width) 
    complete: FALSE
    current: 3
    cursor_to_start: function () 
    first: FALSE
    format:   processing [:bar] :percent eta: :eta
    has_token: FALSE FALSE FALSE FALSE TRUE TRUE FALSE FALSE TRUE FALSE ...
    message_class: NULL
    progress_message: function (..., domain = NULL, appendLF = TRUE) 
    ratio: function () 
    render: function (tokens) 
    show_after: 0.2
    spin: function () 
    start: 2025-01-08 18:37:47
    supported: TRUE
    total: 6
    toupdate: TRUE
    width: 60

In [12]:
# Шаг 4: Удаление своих стоп-слов
pb$tick()
tokens <- tokens_remove(tokens, my_stopwords)  # Удаление своих стоп-слов




<progress_bar>
  Public:
    clone: function (deep = FALSE) 
    finished: FALSE
    initialize: function (format = "[:bar] :percent", total = 100, width = getOption("width") - 
    message: function (msg, set_width = TRUE) 
    terminate: function () 
    tick: function (len = 1, tokens = list()) 
    update: function (ratio, tokens = list()) 
  Private:
    callback: function (self) 
    chars: list
    clear: FALSE
    clear_line: function (width) 
    complete: FALSE
    current: 5
    cursor_to_start: function () 
    first: FALSE
    format:   processing [:bar] :percent eta: :eta
    has_token: FALSE FALSE FALSE FALSE TRUE TRUE FALSE FALSE TRUE FALSE ...
    message_class: NULL
    progress_message: function (..., domain = NULL, appendLF = TRUE) 
    ratio: function () 
    render: function (tokens) 
    show_after: 0.2
    spin: function () 
    start: 2025-01-08 18:37:47
    supported: TRUE
    total: 6
    toupdate: TRUE
    width: 60

In [13]:
# Шаг 5: Создание документ-термин матрицы (DTM)
pb$tick()
dtm <- dfm(tokens)






<progress_bar>
  Public:
    clone: function (deep = FALSE) 
    finished: TRUE
    initialize: function (format = "[:bar] :percent", total = 100, width = getOption("width") - 
    message: function (msg, set_width = TRUE) 
    terminate: function () 
    tick: function (len = 1, tokens = list()) 
    update: function (ratio, tokens = list()) 
  Private:
    callback: function (self) 
    chars: list
    clear: FALSE
    clear_line: function (width) 
    complete: TRUE
    current: 6
    cursor_to_start: function () 
    first: FALSE
    format:   processing [:bar] :percent eta: :eta
    has_token: FALSE FALSE FALSE FALSE TRUE TRUE FALSE FALSE TRUE FALSE ...
    message_class: NULL
    progress_message: function (..., domain = NULL, appendLF = TRUE) 
    ratio: function () 
    render: function (tokens) 
    show_after: 0.2
    spin: function () 
    start: 2025-01-08 18:37:47
    supported: TRUE
    total: 6
    toupdate: TRUE
    width: 60

ERROR: Error in if (...length() && any(...names() == "Dimnames")) .Object@Dimnames <- fixupDN(.Object@Dimnames): пропущенное значение, а нужно TRUE/FALSE


In [14]:
# Шаг 6: Преобразование DTM в data.frame
pb$tick()
term_matrix_df <- convert(dtm, to = "data.frame")

# Вывод первых строк data.frame для проверки
# head(term_matrix_df)

ERROR: Error in pb_tick(self, private, len, tokens): !self$finished не TRUE


In [3]:
# Создание DFM для термина "любовь"
term_love <- dfm_select(dtm, pattern = "любовь")

# Пример анализа ассоциаций терминов
associations <- textstat_simil(dtm, y = term_love, margin = "features", method = "correlation")

# Преобразование результата в data.frame
assoc_df <- as.data.frame(as.table(as.matrix(associations)))
assoc_df <- assoc_df[order(-assoc_df$Freq), ]  # Сортировка по убыванию корреляции
colnames(assoc_df) <- c("term", "correlation")
print(assoc_df)


# Пример частотного анализа
term_freq <- colSums(as.matrix(dtm))
term_freq_df <- data.frame(term = names(term_freq), freq = term_freq)
term_freq_df <- term_freq_df[order(term_freq_df$freq, decreasing = TRUE), ]
top_terms <- head(term_freq_df, 20)
print(top_terms)

# Создание DFM для термина "любовь"
term_love <- dfm_select(dtm, pattern = "любовь")

# Пример анализа ассоциаций терминов
associations <- textstat_simil(dtm, y = term_love, margin = "features", method = "correlation")

# Преобразование результата в data.frame
assoc_df <- as.data.frame(as.table(as.matrix(associations)))
assoc_df <- assoc_df[order(-assoc_df$Freq), ]  # Сортировка по убыванию корреляции
colnames(assoc_df) <- c("term", "correlation")
print(assoc_df)

ERROR: Error in dfm_select(dtm, pattern = "любовь"): объект 'dtm' не найден


In [2]:
library(progress)
library(quanteda)

library(quanteda.textstats)

Package version: 3.3.1
Unicode version: 15.1
ICU version: 74.1

Parallel computing: 8 of 8 threads used.

See https://quanteda.io for tutorials and examples.



In [3]:
# Чтение файла
text_data <- readLines('f:/chatepc/chatalx/work/data/obriv.txt', encoding = "UTF-8")

In [4]:
pb <- progress_bar$new(
  format = "  processing [:bar] :percent eta: :eta",
  total = 4, clear = FALSE, width = 60
)

In [16]:
# Создание корпуса текста с использованием quanteda
corpus <- corpus(text_data)

# Создание списка своих стоп-слов
my_stopwords <- c(stopwords("ru"), "не","на","только","с","к","я","о","а","ему","от","у","она","но","так","все","было","что","и","в","его","как","из","еще","за","это","бы","вы","то","он","же","по","ее","это", "в", "с", "и", "который", "свой", "весь", "хотя", "вообще", "ох", "всё", "ты","который","которые","ежели", "очень", "бы", "что-то", "—", "…","— "," —")


# Очистка текста и создание токенов
tokens <- tokens(corpus, 
                 remove_punct = TRUE,  # Удаление знаков препинания
                 remove_numbers = TRUE,  # Удаление чисел
                 remove_symbols = TRUE,  # Удаление символов
                 remove_separators = TRUE)  # Удаление разделителей

# Приведение токенов к нижнему регистру и удаление своих стоп-слов
tokens <- tokens_tolower(tokens)
tokens <- tokens_remove(tokens, my_stopwords)  # Удаление своих стоп-слов

In [6]:
# pb$tick(tokens <- tokens(corpus), tokens, "Токенизация текста")
pb$tick(dtm <- dfm(tokens), dtm, "Создание документ-термин матрицы")
pb$tick(term_matrix_df <- convert(dtm, to = "data.frame"), term_matrix_df, "Преобразование DTM в data.frame")
pb$tick(term_freq <- colSums(as.matrix(dtm)), term_freq, "Частотный анализ")

ERROR: Error in pb$tick(dtm <- dfm(tokens), dtm, "Создание документ-термин матрицы"): неиспользованный аргумент ("Создание документ-термин матрицы")


In [17]:
# Создание документ-термин матрицы (DTM)
dtm <- dfm(tokens)

# Преобразование DTM в data.frame
term_matrix_df <- convert(dtm, to = "data.frame")

# Вывод первых строк полученной документ-термин матрицы
# print(head(dtm))
###########################



ERROR: Error in if (...length() && any(...names() == "Dimnames")) .Object@Dimnames <- fixupDN(.Object@Dimnames): пропущенное значение, а нужно TRUE/FALSE


In [None]:
# Создание DFM для термина "любовь"
term_love <- dfm_select(dtm, pattern = "любовь")

# Пример анализа ассоциаций терминов
associations <- textstat_simil(dtm, y = term_love, margin = "features", method = "correlation")

# Преобразование результата в data.frame
assoc_df <- as.data.frame(as.table(as.matrix(associations)))
assoc_df <- assoc_df[order(-assoc_df$Freq), ]  # Сортировка по убыванию корреляции
colnames(assoc_df) <- c("term", "correlation")
print(assoc_df)


# Пример частотного анализа
term_freq <- colSums(as.matrix(dtm))
term_freq_df <- data.frame(term = names(term_freq), freq = term_freq)
term_freq_df <- term_freq_df[order(term_freq_df$freq, decreasing = TRUE), ]
top_terms <- head(term_freq_df, 20)
print(top_terms)

# Создание DFM для термина "любовь"
term_love <- dfm_select(dtm, pattern = "любовь")

# Пример анализа ассоциаций терминов
associations <- textstat_simil(dtm, y = term_love, margin = "features", method = "correlation")

# Преобразование результата в data.frame
assoc_df <- as.data.frame(as.table(as.matrix(associations)))
assoc_df <- assoc_df[order(-assoc_df$Freq), ]  # Сортировка по убыванию корреляции
colnames(assoc_df) <- c("term", "correlation")
print(assoc_df)