# Читання даних з веб-сторінок

---

## 0. Інсталяція потрібних пакетів

Для початку варто інсталювати пакети `rvest`, `dplyr`, `stringr`.

In [1]:
# install.packages("rvest") # парсер вбесторінок
# install.packages("dplyr") # маніпулювання та вибірка даних
# install.packages("stringr") # робота з текстом/рядками

Завантажуємо пакет у память, щоб можна було використовувати функції.

In [2]:
library(rvest)
library(dplyr)
library(stringr)


Attaching package: 'dplyr'


The following objects are masked from 'package:stats':

    filter, lag


The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union




## 1. Читаємо вміст вебсторінки та потрібні дані

Вказуємо адресу ресурсу для читання даних:

In [3]:
url <- "https://abit-poisk.org.ua/rate2022/direction/968614"
#url <- "https://abit-poisk.org.ua/rate2022/direction/984185"
url

Читаємо сторінку у змінну у форматі `html` як набір тексту:

In [4]:
page <- read_html(url)
page

{html_document}
<html lang="uk">
[1] <head>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8 ...
[2] <body>\n<div id="js-ba-options" data-options='{"banners":[["\\/assets\\/i ...

Витягуємо з інформації про сторінку усі потрібні нам теги, у даному випадку це таблиці, тег `table`.

In [5]:
tables <- html_nodes(page, "table")
tables

{xml_nodeset (2)}
[1] <table class="table table-bordered table-hover">\n<thead><tr>\n<th class= ...
[2] <table class="table table-bordered table-hover" style="padding-right: 0;p ...

Конвертуємо отриману таблицю з формату html у `data.frame` та переглядаємо перших кілька рядків таблиці, щоб переконатися, що усе `ОК`.

In [6]:
data <- as.data.frame(html_table(tables[1]), fill = T)
data

X.,ПІБ,П,Заг.бал,Статус,Складові.заг..балу,Квота,Д
<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>
1,1  120-7964783 В. В. Пр. 1,1,176.100,До наказу (б),187 176 160 Українська мова: 187  Математика: 176  Історія України: 160,Квота-2,+
2,2  Горецька Н. Л. Пр. 1,1,131.900,До наказу (б),138 125 140 Українська мова: 138  Математика: 125  Історія України: 140,Квота-1,+
3,3  Жарчинський М. С. Пр. 1,1,195.200,До наказу (б),184 200 200 Українська мова: 184  Математика: 200  Історія України: 200,—,+
4,4  Пильгун А. Ю. Пр. 1,1,192.400,До наказу (б),184 200 186 Українська мова: 184  Математика: 200  Історія України: 186,—,+
5,5  Ошейко В. О. Пр. 2,2,188.100,До наказу (б),187 200 160 Українська мова: 187  Математика: 200  Історія України: 160,—,+
6,6  Круш І. В. Пр. 4,4,185.100,До наказу (б),177 192 180 Українська мова: 177  Математика: 192  Історія України: 180,—,+
7,7  Строзюк Р. В. Пр. 1,1,184.200,До наказу (б),174 192 180 Українська мова: 174  Математика: 192  Історія України: 180,—,+
8,8  Лавренюк А. В. Пр. 1,1,183.100,До наказу (б),194 185 162 Українська мова: 194  Математика: 185  Історія України: 162,—,+
9,9  Дігалевич І. О. Пр. 1,1,182.800,До наказу (б),172 192 176 Українська мова: 172  Математика: 192  Історія України: 176,—,+
10,10  Сівачук М. О. Пр. 1,1,182.300,До наказу (б),187 192 151 Українська мова: 187  Математика: 192  Історія України: 151,—,+


## 2. Очистка та трансформація даних

### 2.1. Видалення зайвих стовпців

Видалимо 3-й та 7-й стовпець з інформацією про квоту

In [7]:
data |> select(c(3,7)) |> head()

Unnamed: 0_level_0,П,Квота
Unnamed: 0_level_1,<chr>,<chr>
1,1,Квота-2
2,1,Квота-1
3,1,—
4,1,—
5,2,—
6,4,—


In [8]:
data <- data |> select(-c(3,7))
data |> head()

Unnamed: 0_level_0,X.,ПІБ,Заг.бал,Статус,Складові.заг..балу,Д
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>
1,1,1  120-7964783 В. В. Пр. 1,176.1,До наказу (б),187 176 160 Українська мова: 187  Математика: 176  Історія України: 160,+
2,2,2  Горецька Н. Л. Пр. 1,131.9,До наказу (б),138 125 140 Українська мова: 138  Математика: 125  Історія України: 140,+
3,3,3  Жарчинський М. С. Пр. 1,195.2,До наказу (б),184 200 200 Українська мова: 184  Математика: 200  Історія України: 200,+
4,4,4  Пильгун А. Ю. Пр. 1,192.4,До наказу (б),184 200 186 Українська мова: 184  Математика: 200  Історія України: 186,+
5,5,5  Ошейко В. О. Пр. 2,188.1,До наказу (б),187 200 160 Українська мова: 187  Математика: 200  Історія України: 160,+
6,6,6  Круш І. В. Пр. 4,185.1,До наказу (б),177 192 180 Українська мова: 177  Математика: 192  Історія України: 180,+


### 2.2. Іменування стовпців

Замінимо назви стовпців дата-фрейму для зручності використання під час роботи з даними

In [9]:
colnames(data) <- c("Rank", "Name", "TotalGrade", "StudyType", "Grades", "IsStudent")
data |> head()

Unnamed: 0_level_0,Rank,Name,TotalGrade,StudyType,Grades,IsStudent
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>
1,1,1  120-7964783 В. В. Пр. 1,176.1,До наказу (б),187 176 160 Українська мова: 187  Математика: 176  Історія України: 160,+
2,2,2  Горецька Н. Л. Пр. 1,131.9,До наказу (б),138 125 140 Українська мова: 138  Математика: 125  Історія України: 140,+
3,3,3  Жарчинський М. С. Пр. 1,195.2,До наказу (б),184 200 200 Українська мова: 184  Математика: 200  Історія України: 200,+
4,4,4  Пильгун А. Ю. Пр. 1,192.4,До наказу (б),184 200 186 Українська мова: 184  Математика: 200  Історія України: 186,+
5,5,5  Ошейко В. О. Пр. 2,188.1,До наказу (б),187 200 160 Українська мова: 187  Математика: 200  Історія України: 160,+
6,6,6  Круш І. В. Пр. 4,185.1,До наказу (б),177 192 180 Українська мова: 177  Математика: 192  Історія України: 180,+


### 2.3. Трансформація даних у стовпцях

Підготуємо наш набір даних до вигляду, коли у нас будуть стовпці у вигляді

|Rank|Name|StudyType|UkrGrade|MathGrade|HistoryGrade|TotalGrade|IsStudent|
|---|---|---|---|---|---|---|---|
|1|Прізвище І.І.|Бюджет|158|198|184|172.4|TRUE|

`Rank` лишаємо без змін.

#### 2.3.1. Очистка поля `Name`

Очистимо стовпець `Name`. Для початку переглянемо, що насправді може бути у цьому стовпці:

In [10]:
data$Name[1]

Переглянемо скільки символів присутньо у цьому записі

In [11]:
nchar(data$Name)

З чого він складається? Цифра на початку, `\n` та `\t`, багато зайвих пробілів та інформація про пріоритет вкінці  `Пр.`. 

Для початку позбудемося `\n` та `\t`.

In [12]:
library(stringr)

In [13]:
name <- data$Name[1]
name <- str_replace_all(name, "\n", "")
name

In [14]:
name <- str_replace_all(name, "\t", "")
name

Тепер позбудемося пробілів, наприклад, замінимо 2 пробіли на 1.

In [15]:
str_replace_all(name, "  ", " ")

Стало менше проте ми їх не позбулися (((

In [16]:
name <- str_replace_all(name, "  ", " ")
name <- str_replace_all(name, "  ", " ")
name

Майже, але ще не все

In [17]:
name <- str_replace_all(name, "  ", " ")
name <- str_replace_all(name, "  ", " ")
name

Майже вийшло, проте ми не можемо гарантувати, що усі дані мають таку ж кількість пробілів. Варто написати алгоритм, що буде видаляти усі пробіли за 1 раз.

In [18]:
text_length = 0
text = name

# доки довжина тексту змінюється
while(text_length != nchar(text)) {
    # рахуємо скільки символів у тексті
    text_length <- nchar(text)    
    # замінюємо 2 пробіли на 1
    text <- str_replace_all(text, "  ", " ")   
}
text

Далі загорнемо це все у функцію:

In [19]:
text_cleaner <- function(text) {
    
    text <- str_replace_all(text, "\t", "")
    text <- str_replace_all(text, "\n", "")
    
    text_length = 0

    while(text_length != nchar(text)) {
        text_length <- nchar(text)    
        text <- str_replace_all(text, "  ", " ")   
    }
    text
}

Перевіримо чи функція працює на 1 записі:

In [20]:
text_cleaner(data$Name[3])

Перевіримо чи працює функція у парі з `sapply()` для усього ветора імен

In [21]:
std_names <- sapply(data$Name, text_cleaner)
names(std_names) <- NULL
std_names

Як видалити `#Номер` на початку та `Пр. Х` вкінці?

In [22]:
#indexes <- as.data.frame(str_locate(std_names, "Пр."))
#head(indexes, 10)

Варто відмітити, що присутні пропуски у таблиці, а це означає, що `Пр.` не було знайдено у записі. І якщо ми зробимо просто видалення за індексом `Пр.`, то окремі записи будуть знищені. Зверніть увагу на запис `#10`.

In [23]:
#names <- str_sub(std_names, start = 1L, end = indexes$start-2)
#names

Напишемо складніший алгоритм з перевіркою наявності `Пр.` у рядку:

In [24]:
#std_names <- ifelse(is.na(str_sub(std_names, start = 1L, end = indexes$start-2)),
#                    std_names, 
#                    str_sub(std_names, start = 1L, end = indexes$start-2))
#std_names

Далі нам потрібно видалити цифру (порядковий номер) на початку рядка. Алгоритм наступний: розбиваємо на частини рядка через пробіл, а потім усі крім першого "склеюємо" докупи.

In [25]:
x <- unlist(str_split(std_names[1], ' '))
x

In [26]:
x[2:4]

In [27]:
paste(x[2:length(x)], collapse = " ")

Опишемо це як окрему функцію:

In [28]:
#remove_digit <- function(name) {
#    name <- unlist(str_split(name, ' '))
#    paste(name[2:length(name)], collapse = " ")
#}
#remove_digit(std_names[2])

Щоб виконати цю функцію для усього списку використаємо `lapply()`:

In [29]:
#std_names <- lapply(std_names, remove_digit)
#std_names |> head()

Тепер зберемо докупи усі етапи очистки поля Name в 1 функцію.

In [30]:
#clean_names <- function(names) {
#    student_names <- sapply(names, text_cleaner)
#    names(student_names) <- NULL
#    student_names <- ifelse(is.na(str_sub(student_names, start = 1L, end = indexes$start-2)), 
#                           student_names, str_sub(student_names, start = 1L, end = indexes$start-2))
#    student_names <- lapply(student_names, remove_digit)
#    return(student_names)
#}
get_name_only <- function(name){
    x <- unlist(strsplit(name, " "))[2:4]
    paste(x, collapse = " ")
}
clean_names <- function(names) {
    student_names <- sapply(names, text_cleaner)
    names(student_names) <- NULL
    student_names <- lapply(student_names, get_name_only)
    student_names 
}


In [31]:
clean_names(data$Name) |> head()

Замінимо дані у дата-фреймі:

In [32]:
data <- data |>
    mutate(Name = clean_names(Name))
data |> head()

Unnamed: 0_level_0,Rank,Name,TotalGrade,StudyType,Grades,IsStudent
Unnamed: 0_level_1,<chr>,<list>,<chr>,<chr>,<chr>,<chr>
1,1,120-7964783 В. В.,176.1,До наказу (б),187 176 160 Українська мова: 187  Математика: 176  Історія України: 160,+
2,2,Горецька Н. Л.,131.9,До наказу (б),138 125 140 Українська мова: 138  Математика: 125  Історія України: 140,+
3,3,Жарчинський М. С.,195.2,До наказу (б),184 200 200 Українська мова: 184  Математика: 200  Історія України: 200,+
4,4,Пильгун А. Ю.,192.4,До наказу (б),184 200 186 Українська мова: 184  Математика: 200  Історія України: 186,+
5,5,Ошейко В. О.,188.1,До наказу (б),187 200 160 Українська мова: 187  Математика: 200  Історія України: 160,+
6,6,Круш І. В.,185.1,До наказу (б),177 192 180 Українська мова: 177  Математика: 192  Історія України: 180,+


#### 2.3.2. Робота з полем `StudyType`

In [33]:
unique(data$StudyType)

In [34]:
as.vector(data$StudyType)

In [35]:
data <- data |>
    mutate(StudyType = ifelse(StudyType == "До наказу (б)", "Бюджет",
                              ifelse(StudyType == "До наказу (к)", "Контракт",
                                     "Не навчається"))       
)
data |> head()

Unnamed: 0_level_0,Rank,Name,TotalGrade,StudyType,Grades,IsStudent
Unnamed: 0_level_1,<chr>,<list>,<chr>,<chr>,<chr>,<chr>
1,1,120-7964783 В. В.,176.1,Бюджет,187 176 160 Українська мова: 187  Математика: 176  Історія України: 160,+
2,2,Горецька Н. Л.,131.9,Бюджет,138 125 140 Українська мова: 138  Математика: 125  Історія України: 140,+
3,3,Жарчинський М. С.,195.2,Бюджет,184 200 200 Українська мова: 184  Математика: 200  Історія України: 200,+
4,4,Пильгун А. Ю.,192.4,Бюджет,184 200 186 Українська мова: 184  Математика: 200  Історія України: 186,+
5,5,Ошейко В. О.,188.1,Бюджет,187 200 160 Українська мова: 187  Математика: 200  Історія України: 160,+
6,6,Круш І. В.,185.1,Бюджет,177 192 180 Українська мова: 177  Математика: 192  Історія України: 180,+


#### 2.3.3. Очистка інформації про оцінки (`Grades`)

Як бачимо, поле `Grades` містить інформацію про усі оцінки + нави предметів. Наша задача - розділити ці дані на 3 окремі стовпці з інформацією лише про оцінки, а назви предметів варто закодувати у назвах стовпців.

In [36]:
data |> select(Grades) |> top_n(3)

[1m[22mSelecting by Grades


Grades
<chr>
200 200 192 Українська мова: 200  Математика: 200  Історія України: 192
194 200 200 Українська мова: 194  Математика: 200  Історія України: 200
194 200 200 Українська мова: 194  Математика: 200  Історія України: 200


In [37]:
data$Grades[1]

Оцінимо як виглядає 1 запис. Дуже схожі проблеми з полем Name. Спробуємо примінити уже готову функцію text_cleaner до цього поля.

In [38]:
grades <- text_cleaner(data$Grades[1])
grades

Вийшло. Наступний етап розбиття інформації на частини. Нам потрібні лише 3 перші записи у цьому полі.

In [39]:
grades <- unlist(strsplit(grades, " "))[1:3]
grades

In [40]:
sapply(grades, text_cleaner) |> head()

In [41]:
get_3_grades <- function(grades){
    unlist(strsplit(grades, " "))[1:3]
}

get_grades <- function(grades) {
    grades <- sapply(grades, text_cleaner)
    names(grades) <- NULL
    grades <- lapply(grades, get_3_grades)
    grades <- lapply(grades, as.numeric)
    grades
}  

get_grades(data$Grades) |> head()

"NAs introduced by coercion"


In [42]:
grades <- get_grades(data$Grades)
grades |> head()

"NAs introduced by coercion"


In [43]:
data <- data |>
    mutate(UkrGrades = unlist(lapply(grades, `[[`, 1)),
           MathGrades = unlist(lapply(grades, `[[`, 2)),
           HistoryGrades = unlist(lapply(grades, `[[`, 3)),
           Grades = NULL)
data |> head()

Unnamed: 0_level_0,Rank,Name,TotalGrade,StudyType,IsStudent,UkrGrades,MathGrades,HistoryGrades
Unnamed: 0_level_1,<chr>,<list>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
1,1,120-7964783 В. В.,176.1,Бюджет,+,187,176,160
2,2,Горецька Н. Л.,131.9,Бюджет,+,138,125,140
3,3,Жарчинський М. С.,195.2,Бюджет,+,184,200,200
4,4,Пильгун А. Ю.,192.4,Бюджет,+,184,200,186
5,5,Ошейко В. О.,188.1,Бюджет,+,187,200,160
6,6,Круш І. В.,185.1,Бюджет,+,177,192,180


#### 2.3.4. Трансформація поля `IsStudent`

Замінимо це поле на логічне та змінимо порядок стовпців:

In [44]:
data <- data |>
    mutate(IsStudent = ifelse(IsStudent == "+", T, F)) |>
    select(1:2, 6:8, 3:5)

In [45]:
data |> head(15)

Unnamed: 0_level_0,Rank,Name,UkrGrades,MathGrades,HistoryGrades,TotalGrade,StudyType,IsStudent
Unnamed: 0_level_1,<chr>,<list>,<dbl>,<dbl>,<dbl>,<chr>,<chr>,<lgl>
1,1,120-7964783 В. В.,187,176,160,176.1,Бюджет,True
2,2,Горецька Н. Л.,138,125,140,131.9,Бюджет,True
3,3,Жарчинський М. С.,184,200,200,195.2,Бюджет,True
4,4,Пильгун А. Ю.,184,200,186,192.4,Бюджет,True
5,5,Ошейко В. О.,187,200,160,188.1,Бюджет,True
6,6,Круш І. В.,177,192,180,185.1,Бюджет,True
7,7,Строзюк Р. В.,174,192,180,184.2,Бюджет,True
8,8,Лавренюк А. В.,194,185,162,183.1,Бюджет,True
9,9,Дігалевич І. О.,172,192,176,182.8,Бюджет,True
10,10,Сівачук М. О.,187,192,151,182.3,Бюджет,True


In [46]:
mean(data$UkrGrades, na.rm = T)

In [47]:
data |>
    group_by(IsStudent) |>
    summarise(UkrMean = mean(UkrGrades, na.rm = T),
             MathMean = mean(MathGrades, na.rm = T),
             HistoryMean = mean(HistoryGrades, na.rm = T))

IsStudent,UkrMean,MathMean,HistoryMean
<lgl>,<dbl>,<dbl>,<dbl>
False,162.7381,163.0635,159.1746
True,156.4062,157.6406,155.1562


In [48]:
abit_parser <- function(url) {
    
    page <- read_html(url)    
    tables <- html_nodes(page, "table")    
    
    data <- as.data.frame(html_table(tables[1]), fill = T) |> select(-c(3,7))
    
    colnames(data) <- c("Rank", "Name", "TotalGrade", "StudyType", "Grades", "IsStudent")
    
    grades <- get_grades(data$Grades)
    
    data <- data |> 
        mutate(Name = clean_names(Name),
               StudyType = ifelse(StudyType == "До наказу (б)", "Бюджет",
                                  ifelse(StudyType == "До наказу (к)", "Контракт",
                                         "Не навчається")),
               UkrGrades = unlist(lapply(grades, `[[`, 1)),
               MathGrades = unlist(lapply(grades, `[[`, 2)),
               HistoryGrades = unlist(lapply(grades, `[[`, 3)),
               Grades = NULL, 
               IsStudent = ifelse(IsStudent == "+", T, F)) |>
    select(1:2, 6:8, 3:5)
    
    data
}

In [49]:
data_new <- abit_parser("https://abit-poisk.org.ua/rate2022/direction/984185")

"NAs introduced by coercion"


In [51]:
data_new 

Rank,Name,UkrGrades,MathGrades,HistoryGrades,TotalGrade,StudyType,IsStudent
<chr>,<list>,<dbl>,<dbl>,<dbl>,<chr>,<chr>,<lgl>
1,120-7964783 В. В.,187,176,160,176.100,Бюджет,TRUE
2,Горецька Н. Л.,138,125,140,131.900,Бюджет,TRUE
3,Жарчинський М. С.,184,200,200,195.200,Бюджет,TRUE
4,Пильгун А. Ю.,184,200,186,192.400,Бюджет,TRUE
5,Ошейко В. О.,187,200,160,188.100,Бюджет,TRUE
6,Круш І. В.,177,192,180,185.100,Бюджет,TRUE
7,Строзюк Р. В.,174,192,180,184.200,Бюджет,TRUE
8,Лавренюк А. В.,194,185,162,183.100,Бюджет,TRUE
9,Дігалевич І. О.,172,192,176,182.800,Бюджет,TRUE
10,Сівачук М. О.,187,192,151,182.300,Бюджет,TRUE
