# Читання даних з веб-сторінок

---

## 0. Інсталяція потрібних пакетів

Для початку варто інсталювати пакети `rvest`, `dplyr`, `stringr`.

In [1]:
# install.packages("rvest") # парсер веб-сторінок
# install.packages("dplyr") # маніпулювання та вибірка даних
# install.packages("stringr") # робота з текстом/рядками

Завантажуємо пакет у память, щоб можна було використовувати функції.

In [3]:
library(rvest)
library(dplyr)
library(stringr)

## 1. Читаємо вміст вебсторінки та потрібні дані

Вказуємо адресу ресурсу для читання даних:

In [4]:
url <- "https://abit-poisk.org.ua/rate2022/direction/1032336"
#url <- "https://abit-poisk.org.ua/rate2022/direction/984185"
url

Читаємо сторінку у змінну у форматі `html` як набір тексту:

In [5]:
page <- read_html(url)
page

{html_document}
<html lang="uk">
[1] <head>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8 ...
[2] <body>\n<div id="js-ba-options" data-options='{"banners":[["\\/assets\\/i ...

Витягуємо з інформації про сторінку усі потрібні нам теги, у даному випадку це таблиці, тег `table`.

In [6]:
tables <- html_nodes(page, "table")
tables

{xml_nodeset (2)}
[1] <table class="table table-bordered table-hover">\n<thead><tr>\n<th class= ...
[2] <table class="table table-bordered table-hover" style="padding-right: 0;p ...

Конвертуємо отриману таблицю з формату html у `data.frame` та переглядаємо перших кілька рядків таблиці, щоб переконатися, що усе `ОК`.

In [12]:
data <- as.data.frame(html_table(tables[1]), fill = T)
data |> head()

Unnamed: 0_level_0,X.,ПІБ,П,Заг.бал,Статус,Складові.заг..балу,Квота,Д
Unnamed: 0_level_1,<int>,<chr>,<chr>,<dbl>,<chr>,<chr>,<chr>,<chr>
1,1,1  120-7906910 В. О. Пр. 3,3,160.95,До наказу (б),160 168 151 Українська мова: 160  Математика: 168  Історія України: 151,Квота-1,+
2,2,2  Мініч К. В. Пр. 1,1,197.9,До наказу (б),194 200 200 Українська мова: 194  Математика: 200  Історія України: 200,—,+
3,3,3  Редколіс А. В. Пр. 1,1,194.0,До наказу (б),200 185 200 Українська мова: 200  Математика: 185  Історія України: 200,—,+
4,4,4  Скулкін О. В. Пр. 1,1,180.7,До наказу (к),194 172 176 Українська мова: 194  Математика: 172  Історія України: 176,—,+
5,5,5  Мартинчук О. П. Пр. 1,1,179.5,До наказу (к),172 192 170 Українська мова: 172  Математика: 192  Історія України: 170,—,+
6,6,6  Божок М. О. Пр. 1,1,177.4,До наказу (к),174 185 170 Українська мова: 174  Математика: 185  Історія України: 170,—,+


## 2. Очистка та трансформація даних

### 2.1. Видалення зайвих стовпців

Видалимо 3-й та 7-й стовпець з інформацією про квоту

In [13]:
data |> select(c(3,7)) |> head()

Unnamed: 0_level_0,П,Квота
Unnamed: 0_level_1,<chr>,<chr>
1,3,Квота-1
2,1,—
3,1,—
4,1,—
5,1,—
6,1,—


In [14]:
data <- data |> select(-c(3,7))
data |> head()

Unnamed: 0_level_0,X.,ПІБ,Заг.бал,Статус,Складові.заг..балу,Д
Unnamed: 0_level_1,<int>,<chr>,<dbl>,<chr>,<chr>,<chr>
1,1,1  120-7906910 В. О. Пр. 3,160.95,До наказу (б),160 168 151 Українська мова: 160  Математика: 168  Історія України: 151,+
2,2,2  Мініч К. В. Пр. 1,197.9,До наказу (б),194 200 200 Українська мова: 194  Математика: 200  Історія України: 200,+
3,3,3  Редколіс А. В. Пр. 1,194.0,До наказу (б),200 185 200 Українська мова: 200  Математика: 185  Історія України: 200,+
4,4,4  Скулкін О. В. Пр. 1,180.7,До наказу (к),194 172 176 Українська мова: 194  Математика: 172  Історія України: 176,+
5,5,5  Мартинчук О. П. Пр. 1,179.5,До наказу (к),172 192 170 Українська мова: 172  Математика: 192  Історія України: 170,+
6,6,6  Божок М. О. Пр. 1,177.4,До наказу (к),174 185 170 Українська мова: 174  Математика: 185  Історія України: 170,+


### 2.2. Іменування стовпців

Замінимо назви стовпців дата-фрейму для зручності використання під час роботи з даними

In [15]:
colnames(data) <- c("Rank", "Name", "TotalGrade", "StudyType", "Grades", "IsStudent")
data |> head()

Unnamed: 0_level_0,Rank,Name,TotalGrade,StudyType,Grades,IsStudent
Unnamed: 0_level_1,<int>,<chr>,<dbl>,<chr>,<chr>,<chr>
1,1,1  120-7906910 В. О. Пр. 3,160.95,До наказу (б),160 168 151 Українська мова: 160  Математика: 168  Історія України: 151,+
2,2,2  Мініч К. В. Пр. 1,197.9,До наказу (б),194 200 200 Українська мова: 194  Математика: 200  Історія України: 200,+
3,3,3  Редколіс А. В. Пр. 1,194.0,До наказу (б),200 185 200 Українська мова: 200  Математика: 185  Історія України: 200,+
4,4,4  Скулкін О. В. Пр. 1,180.7,До наказу (к),194 172 176 Українська мова: 194  Математика: 172  Історія України: 176,+
5,5,5  Мартинчук О. П. Пр. 1,179.5,До наказу (к),172 192 170 Українська мова: 172  Математика: 192  Історія України: 170,+
6,6,6  Божок М. О. Пр. 1,177.4,До наказу (к),174 185 170 Українська мова: 174  Математика: 185  Історія України: 170,+


### 2.3. Трансформація даних у стовпцях

Підготуємо наш набір даних до вигляду, коли у нас будуть стовпці у вигляді

|Rank|Name|StudyType|UkrGrade|MathGrade|HistoryGrade|TotalGrade|IsStudent|
|---|---|---|---|---|---|---|---|
|1|Прізвище І.І.|Бюджет|158|198|184|172.4|TRUE|

`Rank` лишаємо без змін.

#### 2.3.1. Очистка поля `Name`

Очистимо стовпець `Name`. Для початку переглянемо, що насправді може бути у цьому стовпці:

In [19]:
data$Name[5]

Переглянемо скільки символів присутньо у цьому записі

In [17]:
nchar(data$Name)

З чого він складається? Цифра на початку, `\n` та `\t`, багато зайвих пробілів та інформація про пріоритет вкінці  `Пр.`. 

Для початку позбудемося `\n` та `\t`.

In [18]:
name <- data$Name[5]
name <- str_replace_all(name, "\n", "")
name

In [20]:
name <- str_replace_all(name, "\t", "")
name

Тепер позбудемося пробілів, наприклад, замінимо 2 пробіли на 1.

In [21]:
str_replace_all(name, "  ", " ")

Стало менше проте ми їх не позбулися (((

In [22]:
name <- str_replace_all(name, "  ", " ")
name <- str_replace_all(name, "  ", " ")
name

Майже, але ще не все

In [23]:
name <- str_replace_all(name, "  ", " ")
name <- str_replace_all(name, "  ", " ")
name

Майже вийшло, проте ми не можемо гарантувати, що усі дані мають таку ж кількість пробілів. Варто написати алгоритм, що буде видаляти усі пробіли за 1 раз.

In [24]:
text_length = 0
text = name

# доки довжина тексту змінюється
while(text_length != nchar(text)) {
    # рахуємо скільки символів у тексті
    text_length <- nchar(text)    
    # замінюємо 2 пробіли на 1
    text <- str_replace_all(text, "  ", " ")   
}
text

Далі загорнемо це все у функцію:

In [25]:
text_cleaner <- function(text) {
    
    text <- str_replace_all(text, "\t", "")
    text <- str_replace_all(text, "\n", "")
    
    text_length = 0

    while(text_length != nchar(text)) {
        text_length <- nchar(text)    
        text <- str_replace_all(text, "  ", " ")   
    }
    text
}

Перевіримо чи функція працює на 1 записі:

In [26]:
text_cleaner(data$Name[3])

Перевіримо чи працює функція у парі з `sapply()` для усього ветора імен

In [32]:
std_names <- sapply(data$Name, text_cleaner)
names(std_names) <- NULL
std_names

Як видалити `#Номер` на початку та `Пр. Х` вкінці?

In [21]:
#indexes <- as.data.frame(str_locate(std_names, "Пр."))
#head(indexes, 10)

Варто відмітити, що присутні пропуски у таблиці, а це означає, що `Пр.` не було знайдено у записі. І якщо ми зробимо просто видалення за індексом `Пр.`, то окремі записи будуть знищені. Зверніть увагу на запис `#10`.

In [22]:
#names <- str_sub(std_names, start = 1L, end = indexes$start-2)
#names

Напишемо складніший алгоритм з перевіркою наявності `Пр.` у рядку:

In [27]:
#std_names <- ifelse(is.na(str_sub(std_names, start = 1L, end = indexes$start-2)),
#                    std_names, 
#                    str_sub(std_names, start = 1L, end = indexes$start-2))
#std_names

In [29]:
data <- data[1:20,]

In [30]:
data

Unnamed: 0_level_0,Rank,Name,TotalGrade,StudyType,Grades,IsStudent
Unnamed: 0_level_1,<int>,<chr>,<dbl>,<chr>,<chr>,<chr>
1,1,1  120-7906910 В. О. Пр. 3,160.95,До наказу (б),160 168 151 Українська мова: 160  Математика: 168  Історія України: 151,+
2,2,2  Мініч К. В. Пр. 1,197.9,До наказу (б),194 200 200 Українська мова: 194  Математика: 200  Історія України: 200,+
3,3,3  Редколіс А. В. Пр. 1,194.0,До наказу (б),200 185 200 Українська мова: 200  Математика: 185  Історія України: 200,+
4,4,4  Скулкін О. В. Пр. 1,180.7,До наказу (к),194 172 176 Українська мова: 194  Математика: 172  Історія України: 176,+
5,5,5  Мартинчук О. П. Пр. 1,179.5,До наказу (к),172 192 170 Українська мова: 172  Математика: 192  Історія України: 170,+
6,6,6  Божок М. О. Пр. 1,177.4,До наказу (к),174 185 170 Українська мова: 174  Математика: 185  Історія України: 170,+
7,7,7  Шевчук К. В. Пр. 1,168.25,До наказу (к),177 172 150 Українська мова: 177  Математика: 172  Історія України: 150,+
8,8,8  Новік А. І. К,160.6,До наказу (к),187 146 147 Українська мова: 187  Математика: 146  Історія України: 147,+
9,9,9  Пінчук О. О. Пр. 5,159.5,До наказу (к),172 152 154 Українська мова: 172  Математика: 152  Історія України: 154,+
10,10,10  Шуль М. В. Пр. 1,156.1,До наказу (к),160 154 154 Українська мова: 160  Математика: 154  Історія України: 154,+


Далі нам потрібно видалити цифру (порядковий номер) на початку рядка. Алгоритм наступний: розбиваємо на частини рядка через пробіл, а потім усі крім першого "склеюємо" докупи.

In [33]:
x <- unlist(str_split(std_names[4], ' '))
x

In [34]:
x[2:4]

In [35]:
paste(x[2:4], collapse = " ")

Опишемо це як окрему функцію:

In [27]:
#remove_digit <- function(name) {
#    name <- unlist(str_split(name, ' '))
#    paste(name[2:length(name)], collapse = " ")
#}
#remove_digit(std_names[2])

Щоб виконати цю функцію для усього списку використаємо `lapply()`:

In [28]:
#std_names <- lapply(std_names, remove_digit)
#std_names |> head()

Тепер зберемо докупи усі етапи очистки поля Name в 1 функцію.

In [36]:
#clean_names <- function(names) {
#    student_names <- sapply(names, text_cleaner)
#    names(student_names) <- NULL
#    student_names <- ifelse(is.na(str_sub(student_names, start = 1L, end = indexes$start-2)), 
#                           student_names, str_sub(student_names, start = 1L, end = indexes$start-2))
#    student_names <- lapply(student_names, remove_digit)
#    return(student_names)
#}

get_name_only <- function(name){
    x <- unlist(str_split(name, " "))[2:4]
    paste(x, collapse = " ")
}

clean_names <- function(names) {
    student_names <- sapply(names, text_cleaner)
    names(student_names) <- NULL
    student_names <- lapply(student_names, get_name_only)
    student_names 
}


In [37]:
clean_names(data$Name) |> head()

Замінимо дані у дата-фреймі:

In [38]:
data <- data |>
    mutate(Name = unlist(clean_names(Name)))

In [39]:
data |> head()

Unnamed: 0_level_0,Rank,Name,TotalGrade,StudyType,Grades,IsStudent
Unnamed: 0_level_1,<int>,<chr>,<dbl>,<chr>,<chr>,<chr>
1,1,120-7906910 В. О.,160.95,До наказу (б),160 168 151 Українська мова: 160  Математика: 168  Історія України: 151,+
2,2,Мініч К. В.,197.9,До наказу (б),194 200 200 Українська мова: 194  Математика: 200  Історія України: 200,+
3,3,Редколіс А. В.,194.0,До наказу (б),200 185 200 Українська мова: 200  Математика: 185  Історія України: 200,+
4,4,Скулкін О. В.,180.7,До наказу (к),194 172 176 Українська мова: 194  Математика: 172  Історія України: 176,+
5,5,Мартинчук О. П.,179.5,До наказу (к),172 192 170 Українська мова: 172  Математика: 192  Історія України: 170,+
6,6,Божок М. О.,177.4,До наказу (к),174 185 170 Українська мова: 174  Математика: 185  Історія України: 170,+


#### 2.3.2. Робота з полем `StudyType`

In [40]:
unique(data$StudyType)

In [41]:
as.vector(data$StudyType)

In [42]:
data <- data |>
    mutate(StudyType = ifelse(StudyType == "До наказу (б)", "Бюджет",
                              ifelse(StudyType == "До наказу (к)", "Контракт",
                                     "Не навчається"))       
)

In [43]:
data |> head()

Unnamed: 0_level_0,Rank,Name,TotalGrade,StudyType,Grades,IsStudent
Unnamed: 0_level_1,<int>,<chr>,<dbl>,<chr>,<chr>,<chr>
1,1,120-7906910 В. О.,160.95,Бюджет,160 168 151 Українська мова: 160  Математика: 168  Історія України: 151,+
2,2,Мініч К. В.,197.9,Бюджет,194 200 200 Українська мова: 194  Математика: 200  Історія України: 200,+
3,3,Редколіс А. В.,194.0,Бюджет,200 185 200 Українська мова: 200  Математика: 185  Історія України: 200,+
4,4,Скулкін О. В.,180.7,Контракт,194 172 176 Українська мова: 194  Математика: 172  Історія України: 176,+
5,5,Мартинчук О. П.,179.5,Контракт,172 192 170 Українська мова: 172  Математика: 192  Історія України: 170,+
6,6,Божок М. О.,177.4,Контракт,174 185 170 Українська мова: 174  Математика: 185  Історія України: 170,+


#### 2.3.3. Очистка інформації про оцінки (`Grades`)

Як бачимо, поле `Grades` містить інформацію про усі оцінки + нави предметів. Наша задача - розділити ці дані на 3 окремі стовпці з інформацією лише про оцінки, а назви предметів варто закодувати у назвах стовпців.

In [44]:
data |> select(Grades) |> head(3)

Unnamed: 0_level_0,Grades
Unnamed: 0_level_1,<chr>
1,160 168 151 Українська мова: 160  Математика: 168  Історія України: 151
2,194 200 200 Українська мова: 194  Математика: 200  Історія України: 200
3,200 185 200 Українська мова: 200  Математика: 185  Історія України: 200


In [45]:
data$Grades[1]

Оцінимо як виглядає 1 запис. Дуже схожі проблеми з полем Name. Спробуємо примінити уже готову функцію text_cleaner до цього поля.

In [46]:
grades <- text_cleaner(data$Grades[1])
grades

In [50]:
lst <- str_split(grades, " ")

In [54]:
lst[1]

Вийшло. Наступний етап розбиття інформації на частини. Нам потрібні лише 3 перші записи у цьому полі.

In [56]:
grades <- unlist(str_split(grades, " "))[1:3]
grades

In [59]:
sapply(grades, text_cleaner) |> head()

In [61]:
get_3_grades <- function(grades){
    unlist(strsplit(grades, " "))[1:3]
}

get_grades <- function(grades) {
    grades <- sapply(grades, text_cleaner)
    names(grades) <- NULL
    grades <- lapply(grades, get_3_grades)
    grades <- lapply(grades, as.numeric)
    grades
}  

get_grades(data$Grades) |> head()

In [62]:
grades <- get_grades(data$Grades)
grades |> head()

In [63]:
data <- data |>
    mutate(UkrGrades = unlist(lapply(grades, `[[`, 1)),
           MathGrades = unlist(lapply(grades, `[[`, 2)),
           HistoryGrades = unlist(lapply(grades, `[[`, 3)),
           Grades = NULL)
data |> head()

Unnamed: 0_level_0,Rank,Name,TotalGrade,StudyType,IsStudent,UkrGrades,MathGrades,HistoryGrades
Unnamed: 0_level_1,<int>,<chr>,<dbl>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
1,1,120-7906910 В. О.,160.95,Бюджет,+,160,168,151
2,2,Мініч К. В.,197.9,Бюджет,+,194,200,200
3,3,Редколіс А. В.,194.0,Бюджет,+,200,185,200
4,4,Скулкін О. В.,180.7,Контракт,+,194,172,176
5,5,Мартинчук О. П.,179.5,Контракт,+,172,192,170
6,6,Божок М. О.,177.4,Контракт,+,174,185,170


#### 2.3.4. Трансформація поля `IsStudent`

Замінимо це поле на логічне та змінимо порядок стовпців:

In [64]:
data <- data |>
    mutate(IsStudent = ifelse(IsStudent == "+", T, F)) |>
    select(1:2, 6:8, 3:5)

In [65]:
data |> head(5)

Unnamed: 0_level_0,Rank,Name,UkrGrades,MathGrades,HistoryGrades,TotalGrade,StudyType,IsStudent
Unnamed: 0_level_1,<int>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>,<lgl>
1,1,120-7906910 В. О.,160,168,151,160.95,Бюджет,True
2,2,Мініч К. В.,194,200,200,197.9,Бюджет,True
3,3,Редколіс А. В.,200,185,200,194.0,Бюджет,True
4,4,Скулкін О. В.,194,172,176,180.7,Контракт,True
5,5,Мартинчук О. П.,172,192,170,179.5,Контракт,True


In [66]:
mean(data$UkrGrades, na.rm = T)

In [67]:
data |>
    group_by(IsStudent) |>
    summarise(UkrMean = mean(UkrGrades, na.rm = T),
             MathMean = mean(MathGrades, na.rm = T),
             HistoryMean = mean(HistoryGrades, na.rm = T))

IsStudent,UkrMean,MathMean,HistoryMean
<lgl>,<dbl>,<dbl>,<dbl>
False,190.4,178.4,182.0
True,169.1333,161.0,159.5333


In [68]:
abit_parser <- function(url) {
    
    page <- read_html(url)    
    tables <- html_nodes(page, "table")    
    
    data <- as.data.frame(html_table(tables[1]), fill = T) |> select(-c(3,7))
    
    colnames(data) <- c("Rank", "Name", "TotalGrade", "StudyType", "Grades", "IsStudent")
    
    grades <- get_grades(data$Grades)
    
    data <- data |> 
        mutate(Name = unlist(clean_names(Name)),
               StudyType = ifelse(StudyType == "До наказу (б)", "Бюджет",
                                  ifelse(StudyType == "До наказу (к)", "Контракт",
                                         "Не навчається")),
               UkrGrades = unlist(lapply(grades, `[[`, 1)),
               MathGrades = unlist(lapply(grades, `[[`, 2)),
               HistoryGrades = unlist(lapply(grades, `[[`, 3)),
               Grades = NULL, 
               IsStudent = ifelse(IsStudent == "+", T, F)) |>
    select(1:2, 6:8, 3:5)
    
    data
}

In [69]:
data_new <- abit_parser("https://abit-poisk.org.ua/rate2022/direction/984185")

"NAs introduced by coercion"


In [70]:
data_new 

Rank,Name,UkrGrades,MathGrades,HistoryGrades,TotalGrade,StudyType,IsStudent
<chr>,<chr>,<dbl>,<dbl>,<dbl>,<chr>,<chr>,<lgl>
1,120-7964783 В. В.,187,176,160,176.100,Бюджет,TRUE
2,Горецька Н. Л.,138,125,140,131.900,Бюджет,TRUE
3,Жарчинський М. С.,184,200,200,195.200,Бюджет,TRUE
4,Пильгун А. Ю.,184,200,186,192.400,Бюджет,TRUE
5,Ошейко В. О.,187,200,160,188.100,Бюджет,TRUE
6,Круш І. В.,177,192,180,185.100,Бюджет,TRUE
7,Строзюк Р. В.,174,192,180,184.200,Бюджет,TRUE
8,Лавренюк А. В.,194,185,162,183.100,Бюджет,TRUE
9,Дігалевич І. О.,172,192,176,182.800,Бюджет,TRUE
10,Сівачук М. О.,187,192,151,182.300,Бюджет,TRUE
