# Читання даних з веб-сторінок

---

Для початку варто інсталювати пакет `rvest`.

In [102]:
# install.packages("rvest")

Завантажуємо пакет у память, щоб можна було використовувати функції.

In [103]:
library(rvest)

Вказуємо адресу ресурсу для читання даних:

In [104]:
url <- "https://abit-poisk.org.ua/rate2022/direction/968614"
url

Читаємо сторінку у змінну у форматі `html` як набір тексту:

In [105]:
page <- read_html(url)
page

{html_document}
<html lang="uk">
[1] <head>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8 ...
[2] <body>\n<div id="js-ba-options" data-options='{"banners":[["\\/assets\\/i ...

Витягуємо з інформації про сторінку усі потрібні нам теги, у даному випадку це таблиці, тег `table`.

In [106]:
tables <- html_nodes(page, "table")
tables

{xml_nodeset (2)}
[1] <table class="table table-bordered table-hover">\n<thead><tr>\n<th class= ...
[2] <table class="table table-bordered table-hover" style="padding-right: 0;p ...

Конвертуємо отриману таблицю з формату html у `data.frame` та переглядаємо перших кілька рядків таблиці, щоб переконатися, що усе `ОК`.

In [112]:
data <- as.data.frame(html_table(tables[1]), fill = T)
data |> head()

Unnamed: 0_level_0,X.,ПІБ,П,Заг.бал,Статус,Складові.заг..балу,Квота,Д
Unnamed: 0_level_1,<int>,<chr>,<chr>,<dbl>,<chr>,<chr>,<chr>,<chr>
1,1,1  Харечко Ю. В. Пр. 1,1,189.45,До наказу (б),187 185 200 Українська мова: 187  Математика: 185  Історія України: 200,—,+
2,2,2  Мосійчук Д. С. Пр. 1,1,186.0,До наказу (б),200 180 176 Українська мова: 200  Математика: 180  Історія України: 176,—,+
3,3,3  Буднік Н. Р. Пр. 1,1,184.7,До наказу (к),194 192 160 Українська мова: 194  Математика: 192  Історія України: 160,—,+
4,4,4  Требухова В. І. Пр. 5,5,178.9,До наказу (к),194 180 156 Українська мова: 194  Математика: 180  Історія України: 156,—,+
5,5,5  Ясковець М. А. Пр. 1,1,178.8,До наказу (к),184 176 176 Українська мова: 184  Математика: 176  Історія України: 176,—,+
6,6,6  Лепська Л. О. Пр. 2,2,171.45,До наказу (к),184 172 153 Українська мова: 184  Математика: 172  Історія України: 153,—,+


Підключимо бібліотеку dplyr для виконання вибірок та маніпулювання даними:

In [114]:
library(dplyr)

Видалимо 3-й та 7-й стовпець з інформацією про квоту

In [116]:
data <- data |> select(-c(3,7))
data |> head()

Unnamed: 0_level_0,X.,ПІБ,Заг.бал,Статус,Складові.заг..балу,Д
Unnamed: 0_level_1,<int>,<chr>,<dbl>,<chr>,<chr>,<chr>
1,1,1  Харечко Ю. В. Пр. 1,189.45,До наказу (б),187 185 200 Українська мова: 187  Математика: 185  Історія України: 200,+
2,2,2  Мосійчук Д. С. Пр. 1,186.0,До наказу (б),200 180 176 Українська мова: 200  Математика: 180  Історія України: 176,+
3,3,3  Буднік Н. Р. Пр. 1,184.7,До наказу (к),194 192 160 Українська мова: 194  Математика: 192  Історія України: 160,+
4,4,4  Требухова В. І. Пр. 5,178.9,До наказу (к),194 180 156 Українська мова: 194  Математика: 180  Історія України: 156,+
5,5,5  Ясковець М. А. Пр. 1,178.8,До наказу (к),184 176 176 Українська мова: 184  Математика: 176  Історія України: 176,+
6,6,6  Лепська Л. О. Пр. 2,171.45,До наказу (к),184 172 153 Українська мова: 184  Математика: 172  Історія України: 153,+


Замінимо назви стовпців дата-фрейму для зручності використання під час роботи з даними

In [117]:
colnames(data) <- c("Rank", "Name", "TotalGrade", "StudyType", "Grades", "IsStudent")
data |> head()

Unnamed: 0_level_0,Rank,Name,TotalGrade,StudyType,Grades,IsStudent
Unnamed: 0_level_1,<int>,<chr>,<dbl>,<chr>,<chr>,<chr>
1,1,1  Харечко Ю. В. Пр. 1,189.45,До наказу (б),187 185 200 Українська мова: 187  Математика: 185  Історія України: 200,+
2,2,2  Мосійчук Д. С. Пр. 1,186.0,До наказу (б),200 180 176 Українська мова: 200  Математика: 180  Історія України: 176,+
3,3,3  Буднік Н. Р. Пр. 1,184.7,До наказу (к),194 192 160 Українська мова: 194  Математика: 192  Історія України: 160,+
4,4,4  Требухова В. І. Пр. 5,178.9,До наказу (к),194 180 156 Українська мова: 194  Математика: 180  Історія України: 156,+
5,5,5  Ясковець М. А. Пр. 1,178.8,До наказу (к),184 176 176 Українська мова: 184  Математика: 176  Історія України: 176,+
6,6,6  Лепська Л. О. Пр. 2,171.45,До наказу (к),184 172 153 Українська мова: 184  Математика: 172  Історія України: 153,+


Підготуємо наш набір даних до вигляду, коли у нас будуть стовпці у вигляді

|Rank|Name|StudyType|UkrGrade|MathGrade|HistoryGrade|TotalGrade|IsStudent|
|---|---|---|---|---|---|---|---|
|1|Прізвище І.І.|Бюджет|158|198|184|172.4|TRUE|

`Rank` лишаємо без змін.

Очистимо стовпець `Name`. Для початку переглянемо, що насправді може бути у цьому стовпці:

In [119]:
data$Name[1]

З чого він складається? Цифра на початку, `\n` та `\t`, багато зайвих пробілів та інформація про пріоритет вкінці  `Пр.`. 

Для початку позбудемося `\n` та `\t`.

In [121]:
library(stringr)

In [124]:
name <- data$Name[1]
name <- str_replace_all(name, "\n", "")
name

In [126]:
name <- str_replace_all(name, "\t", "")
name

Тепер позбудемося пробілів, наприклад, замінимо 2 пробіли на 1.

In [128]:
str_replace_all(name, "  ", " ")

Стало менше проте ми їх не позбулися (((

In [130]:
name <- str_replace_all(name, "  ", " ")
name <- str_replace_all(name, "  ", " ")
name

Майже, але ще не все

In [132]:
name <- str_replace_all(name, "  ", " ")
name <- str_replace_all(name, "  ", " ")
name

Вийшло, проте ми не можемо гарантувати, що усі дані мають таку ж кількість пробілів. Варто написати алгоритм, що буде видаляти усі пробіли за 1 раз.

In [136]:
text_length = 0
text = name

# доки довжина тексту змінюється
while(text_length != nchar(text)) {
    # рахуємо скільки символів у тексті
    text_length <- nchar(text)    
    # замінюємо 2 пробіли на 1
    text <- str_replace_all(text, "  ", " ")   
}
text

Далі загорнемо це все у функцію:

In [140]:
text_cleaner <- function(text) {
    
    text <- str_replace_all(text, "\t", "")
    text <- str_replace_all(text, "\n", "")
    
    text_length = 0

    while(text_length != nchar(text)) {
        text_length <- nchar(text)    
        text <- str_replace_all(text, "  ", " ")   
    }
    text
}

Перевіримо чи функція працює:

In [142]:
text_cleaner(data$Name[3])

In [168]:
std_names <- sapply(data$Name, text_cleaner)
names(std_names) <- NULL
std_names

In [9]:
table1 <- table1 |>
    mutate(IsStudentNow = ifelse(IsStudentNow == "+", T, F))

In [10]:
as.vector(table1$Status)

In [11]:
table1 <- table1 |>
    mutate(Status = ifelse(Status == "До наказу (б)", "Бюджет",
                           ifelse(Status == "До наказу (к)", "Контракт",
                                  "Не навчається"))       
)

In [12]:
library(stringr)

In [13]:
ukr_grades <- c()
math_grades <- c()
history_grades <- c()

for(i in 1:nrow(table1)) {
    # 2 пробіли у тексті
    grades <- as.numeric(unlist(strsplit(str_replace_all(table1[i, ]$Grades, "  ", " "), " "))[1:3])
    ukr_grades <- c(ukr_grades, grades[1])
    math_grades <- c(math_grades, grades[2])
    history_grades <- c(history_grades, grades[3])
    }
table1 <- table1 |>
    mutate(UkrGrade = ukr_grades,
          MathGrade = math_grades,
          HistoryGrade = history_grades) |>
    select(-Grades)

In [151]:
cleaner <- function(text) {
    
    text <- str_replace_all(text, "\n", "")
    text <- str_replace_all(text, "\t", "")
    
    txt_length = 0;
    while(txt_length != nchar(text)) {        
        txt_length = nchar(text)
        text <- str_replace_all(text, "  ", " ")
    }
    
    return (text)
}

In [149]:
nchar(data$Name)

In [32]:
head(table1)

Unnamed: 0_level_0,Rank,Name,Priority,TotalGrade,Status,IsStudentNow,UkrGrade,MathGrade,HistoryGrade
Unnamed: 0_level_1,<int>,<chr>,<chr>,<dbl>,<chr>,<lgl>,<dbl>,<dbl>,<dbl>
1,1,1 Харечко Ю. В. Пр. 1,1,189.45,Бюджет,True,187,185,200
2,2,2 Мосійчук Д. С. Пр. 1,1,186.0,Бюджет,True,200,180,176
3,3,3 Буднік Н. Р. Пр. 1,1,184.7,Контракт,True,194,192,160
4,4,4 Требухова В. І. Пр. 5,5,178.9,Контракт,True,194,180,156
5,5,5 Ясковець М. А. Пр. 1,1,178.8,Контракт,True,184,176,176
6,6,6 Лепська Л. О. Пр. 2,2,171.45,Контракт,True,184,172,153


In [39]:
indexes <- as.data.frame(str_locate(table1$Name, "Пр."))
head(indexes, 10)

Unnamed: 0_level_0,start,end
Unnamed: 0_level_1,<int>,<int>
1,17.0,19.0
2,18.0,20.0
3,16.0,18.0
4,19.0,21.0
5,18.0,20.0
6,17.0,19.0
7,18.0,20.0
8,18.0,20.0
9,15.0,17.0
10,,


Додати пояснення + поетапно

In [42]:
names <- ifelse(is.na(str_sub(table1$Name, start = 1L, end = indexes$start-2)), table1$Name, str_sub(table1$Name, start = 1L, end = indexes$start-2))

In [43]:
names

In [81]:
cleaner <- function(text) {
    text <- str_replace_all(text, "  ", " ")
    text <- str_replace_all(text, "\n", "")
    text <- str_replace_all(text, "\t", "")
    return (text)
    }

In [71]:
x <- unlist(str_split(names[1], ' '))

In [72]:
class(x)

In [73]:
x[2:length(x)]

In [81]:
paste(x[2:length(x)], collapse = " ")

In [82]:
cleaner(table1$Name)

"the condition has length > 1 and only the first element will be used"
"the condition has length > 1 and only the first element will be used"


In [83]:
str_replace_all(str_replace_all(table1$Name, "  ", " "), "\n", "")

In [64]:
table1 |> head(15)

Unnamed: 0_level_0,Rank,Name,Priority,TotalGrade,Status,IsStudentNow,UkrGrade,MathGrade,HistoryGrade
Unnamed: 0_level_1,<int>,<chr>,<chr>,<dbl>,<chr>,<lgl>,<dbl>,<dbl>,<dbl>
1,1,1  Харечко Ю. В. Пр. 1,1,189.45,Бюджет,True,187,185,200
2,2,2  Мосійчук Д. С. Пр. 1,1,186.0,Бюджет,True,200,180,176
3,3,3  Буднік Н. Р. Пр. 1,1,184.7,Контракт,True,194,192,160
4,4,4  Требухова В. І. Пр. 5,5,178.9,Контракт,True,194,180,156
5,5,5  Ясковець М. А. Пр. 1,1,178.8,Контракт,True,184,176,176
6,6,6  Лепська Л. О. Пр. 2,2,171.45,Контракт,True,184,172,153
7,7,7  Гнатенко А. С. Пр. 1,1,162.05,Контракт,True,160,172,149
8,8,8  Бажанова Б. О. Пр. 2,2,161.1,Контракт,True,166,165,148
9,9,9  Рибак К. О. Пр. 1,1,158.55,Контракт,True,169,146,164
10,10,10  Сукач А. М. К,К,158.5,Контракт,True,169,154,151


In [33]:
library(stringr)

In [36]:
table1$TotalAssets <- as.numeric(gsub(",","" , table1$TotalAssets))

In [37]:
mean(table1$TotalAssets)

In [24]:
table2 <- as.data.frame(html_table(tables[2]), fill = T)
table2 |> head()

Unnamed: 0_level_0,Rank,Bank.name,Total.assets.2022..US..billion.
Unnamed: 0_level_1,<int>,<chr>,<chr>
1,1,Industrial and Commercial Bank of China Limited,5742.86
2,2,China Construction Bank,5016.81
3,3,Agricultural Bank of China,4919.03
4,4,Bank of China,4192.12
5,5,JPMorgan Chase,3736.62
6,6,Bank of America,3100.02
