#  Скрапінг-технології

## ТЕОРЕТИЧНА ЧАСТИНА ТА ПРИКЛАДИ

Вміст веб-сайтів(документів) - основне джерело видобутку даних.

Вилучення корисних даних з веб-сторінки називається [веб-скрапінгом](https://uk.wikipedia.org/wiki/Web_scraping)

_Технологія_ що покладена в основу веб-скрапінга - __HTML-парсінг__

Основні парсери HTML:

- [Beautiful Soup](https://en.wikipedia.org/wiki/Beautiful_Soup_(HTML_parser)) - загальноцілова бібліотека Python для парсінгу _статичних_ сайтів.
- [Selenium](https://ru.wikipedia.org/wiki/Selenium) - бібліотека з можливістю парсінга _динамічних_ веб-сайтів.
- [Scrapy](https://ru.wikipedia.org/wiki/Scrapy) - облегшена бібліотека для парсінгу нескладних статичних сайтів.

### Технологія веб-скрапінгу включає наступні етапи:

1. Визначення об'єктів, які підлягають видобутку
2. Вилучення html-сторінки з інтернет-ресурса
3. Визначення внутрішньої структури html-документа та стратегії вилученя даних
4. Застосування веб-скрапера для вилучення та накопичення даних в необхідні структури

#### Вилучення html-сторінки з інтернет-ресурса

__ПРИКЛАД:__ Отримати з сторінки [сайту розкладу КНТЕУ](https://knute.edu.ua/blog/read/?pid=1038&uk) _url-адреси_ excel-файлів розкладу бакалаврів по факультетам та надати результат у вигляді таблиці:

Факультет | Курс    | Адреса
:----------|:-------:|:-------|
ФІТ        |    1   |https://knute.edu.ua/file/MjY=/23d2ede3a07a98bec586cf2368cec077.xls 
ФІТ        |    2   |https://knute.edu.ua/file/MjY=/b829f1bdfd628d56b3c53f5015710678.xls
...        |  ...   | ...
ФМТП       |   4    |https://knute.edu.ua/file/Mjc=/6714dca44d23f37ff446ac7f1c5e2147.xls



Для організації взаємодії з інтернет-ресурсами по протоколу _http/https_ скористаємося бібліотека [Requests](https://www.digitalocean.com/community/tutorials/how-to-get-started-with-the-requests-library-in-python-ru)

In [1]:
# перевіримо наявність бібліотеки requests
! pip freeze | grep requests

"grep" ­Ґ пў«пҐвбп ў­гваҐ­­Ґ© Ё«Ё ў­Ґи­Ґ©
Є®¬ ­¤®©, ЁбЇ®«­пҐ¬®© Їа®Ја ¬¬®© Ё«Ё Ї ЄҐв­л¬ д ©«®¬.


In [2]:
# якщо її немає на комп'ютері, то встановимо
!pip install requests



In [3]:
# підключення бібліотеки 
import requests

In [None]:
print(dir(requests))

In [4]:
# модуль `get` відповідає за зчитування ресурса в об'єкт 'response'
requests.get?

In [6]:
# отримаємо сторінку розкладів 
url = 'https://knute.edu.ua/blog/read/?pid=1038&uk'
resp = requests.get(url)

In [7]:
print(dir(resp))

['__attrs__', '__bool__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__nonzero__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_content', '_content_consumed', '_next', 'apparent_encoding', 'close', 'connection', 'content', 'cookies', 'elapsed', 'encoding', 'headers', 'history', 'is_permanent_redirect', 'is_redirect', 'iter_content', 'iter_lines', 'json', 'links', 'next', 'ok', 'raise_for_status', 'raw', 'reason', 'request', 'status_code', 'text', 'url']


In [8]:
resp.status_code?

In [None]:
resp.text[:500]

__перетворення кодування сторінки__

In [9]:
resp.encoding

'ISO-8859-1'

In [10]:
resp.apparent_encoding

'utf-8'

In [11]:
resp.encoding = resp.apparent_encoding

In [12]:
print(resp.text[:500])

<!DOCTYPE html>
<html ng-app="siteApp">
  <head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><meta name="viewport" content="width=500px, initial-scale=0.7" /><meta property="og:image" content="/image/MTg0/8d0919156730f0275274fbf039c2a855.png" /><meta property="og:title" content="Розклад занять, екзаменаційної сесії, атестації здобувачів вищої освіти" /><meta property="og:description" content="Адреси навчальних корпусів: А - вул. Кіото 19 (головний корпус) Б - вул. Кіото 


In [13]:
knteu_rasp_page = resp.text

#### Визначення внутрішньої структури html-документа та стратегії вилученя даних



Для визначення структури веб-документа найкращим засобом є використання [Chrome DevTools](https://developer.chrome.com/docs/devtools/) або аналогічних, що поставляються з сучасними браузерами.

#### скрапінг html-документа за допомогою [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/bs4ru.html)

In [14]:
# перевіримо наявність бібліотеки BeautifulSoup
! pip freeze | grep beautifulsoup

"grep" ­Ґ пў«пҐвбп ў­гваҐ­­Ґ© Ё«Ё ў­Ґи­Ґ©
Є®¬ ­¤®©, ЁбЇ®«­пҐ¬®© Їа®Ја ¬¬®© Ё«Ё Ї ЄҐв­л¬ д ©«®¬.


In [15]:
# якщо її немає на комп'ютері, то встановимо
!pip install beautifulsoup4



In [16]:
# імпортуєм html-парсер з псевдоніміом 'bs'
from bs4 import BeautifulSoup as bs

bs?

In [17]:
# застосуємо html-парсер до завантаженої сторінки з розкладами 'knteu_rasp_page'
parsed_rasp = bs(knteu_rasp_page, features='html.parser')

In [18]:
type(parsed_rasp)

bs4.BeautifulSoup

In [19]:
print(dir(parsed_rasp))



__Ітеруємось по DOM веб-документа__

In [20]:
back = parsed_rasp.find('span', text='БАКАЛАВР')

In [21]:
type(back)

bs4.element.Tag

In [22]:
back

<span style="color:#0000CD;">БАКАЛАВР</span>

In [23]:
rasp_table = back.find_parent('strong').find_parent('h3').findNextSibling('table')

In [24]:
# в результаті виділили таблицю з розкладом
rasp_lines = rasp_table.find_all('tr')

In [25]:
rasp_lines[0]

<tr>
<td style="text-align:center"><strong>ФІТ</strong></td>
<td style="text-align:center"><strong>ФЕМП</strong></td>
<td style="text-align:center"><strong>ФТМ</strong></td>
<td style="text-align:center"><strong>ФРГТБ</strong></td>
<td style="text-align:center"><strong>ФФО</strong></td>
<td style="text-align:center"><strong>ФМТП</strong></td>
</tr>

In [26]:
# в першому елементі - 'шапка' таблиці
head = rasp_lines[0].find_all('td')

head

[<td style="text-align:center"><strong>ФІТ</strong></td>,
 <td style="text-align:center"><strong>ФЕМП</strong></td>,
 <td style="text-align:center"><strong>ФТМ</strong></td>,
 <td style="text-align:center"><strong>ФРГТБ</strong></td>,
 <td style="text-align:center"><strong>ФФО</strong></td>,
 <td style="text-align:center"><strong>ФМТП</strong></td>]

In [27]:
type(head)

bs4.element.ResultSet

In [28]:
type(head[1])

bs4.element.Tag

In [29]:
# вибираємо назви факультетів в список
fac_names = [tag_td.text for tag_td in head]

fac_names

['ФІТ', 'ФЕМП', 'ФТМ', 'ФРГТБ', 'ФФО', 'ФМТП']

In [30]:
# далі з 1 рядка йдуть строки с посиланнями по курсам
rasp_lines[1:2]

[<tr>
 <td style="text-align:center"><a href="/file/Mjc=/94cbb6b400865014c96ae8218fbf00af.xls"><strong>1
 курс</strong></a></td>
 <td style="text-align:center"><a href="/file/MjM=/00a149c4fc919d08c0e23dd6cf48e3c1.xls"><strong>1
 курс</strong></a></td>
 <td style="text-align:center"><a href="/file/MjU=/939ac6acfe68e6f975318d70bfd32a71.xls"><strong>1
 курс </strong></a></td>
 <td style="text-align:center"><a href="/file/MjU=/a8e8af1e391cc5095f8d72d696c5c46c.xls"><strong>1
 курс</strong></a></td>
 <td style="text-align:center"><a href="/file/MjQ=/06a276f7a6dbd34a2603bf23088fae15.xls"><strong>1
 курс</strong></a></td>
 <td style="text-align:center"><a href="/file/Mjc=/b90e05a538f0692f46cb5c675d263b4c.xls"><strong>1
 курс</strong></a></td>
 </tr>]

In [31]:
hrefs = [[a['href'], a.text.split('\n')[0]] for a in rasp_lines[1].find_all('a')]
hrefs

[['/file/Mjc=/94cbb6b400865014c96ae8218fbf00af.xls', '1'],
 ['/file/MjM=/00a149c4fc919d08c0e23dd6cf48e3c1.xls', '1'],
 ['/file/MjU=/939ac6acfe68e6f975318d70bfd32a71.xls', '1'],
 ['/file/MjU=/a8e8af1e391cc5095f8d72d696c5c46c.xls', '1'],
 ['/file/MjQ=/06a276f7a6dbd34a2603bf23088fae15.xls', '1'],
 ['/file/Mjc=/b90e05a538f0692f46cb5c675d263b4c.xls', '1']]

In [32]:
# вилучаємо номер курсу та адресу excel-файла в список 'result_list'
result_list = []
for line in rasp_lines[1:]:
    href = [[a.text.split('\n')[0], a['href']] for a in line.find_all('a')]
    result_list.append(list(zip(fac_names, href)))

In [33]:
# робимо остаточний список
result = []
for item in result_list:
    for elem in item:
        result.append([elem[0], elem[1][0], 'https://knute.edu.ua' + elem[1][1]])

In [34]:
result[:3]

[['ФІТ',
  '1',
  'https://knute.edu.ua/file/Mjc=/94cbb6b400865014c96ae8218fbf00af.xls'],
 ['ФЕМП',
  '1',
  'https://knute.edu.ua/file/MjM=/00a149c4fc919d08c0e23dd6cf48e3c1.xls'],
 ['ФТМ',
  '1',
  'https://knute.edu.ua/file/MjU=/939ac6acfe68e6f975318d70bfd32a71.xls']]

In [35]:
import pandas as pd

In [36]:
# завантажимо результат в датафрейм
df = pd.DataFrame(result, columns=['Факультет', 'Курс', 'URL'])
df.head(10)

Unnamed: 0,Факультет,Курс,URL
0,ФІТ,1,https://knute.edu.ua/file/Mjc=/94cbb6b40086501...
1,ФЕМП,1,https://knute.edu.ua/file/MjM=/00a149c4fc919d0...
2,ФТМ,1,https://knute.edu.ua/file/MjU=/939ac6acfe68e6f...
3,ФРГТБ,1,https://knute.edu.ua/file/MjU=/a8e8af1e391cc50...
4,ФФО,1,https://knute.edu.ua/file/MjQ=/06a276f7a6dbd34...
5,ФМТП,1,https://knute.edu.ua/file/Mjc=/b90e05a538f0692...
6,ФІТ,2,https://knute.edu.ua/file/Mjc=/61a705fffcfafe3...
7,ФЕМП,2,https://knute.edu.ua/file/MjM=/16f88bf25a2c107...
8,ФТМ,2,https://knute.edu.ua/file/Mjc=/8c0ca554640f9e4...
9,ФРГТБ,2,https://knute.edu.ua/file/MjU=/e50c5d26bf4c88c...


In [37]:
df['URL'].values[:5]

array(['https://knute.edu.ua/file/Mjc=/94cbb6b400865014c96ae8218fbf00af.xls',
       'https://knute.edu.ua/file/MjM=/00a149c4fc919d08c0e23dd6cf48e3c1.xls',
       'https://knute.edu.ua/file/MjU=/939ac6acfe68e6f975318d70bfd32a71.xls',
       'https://knute.edu.ua/file/MjU=/a8e8af1e391cc5095f8d72d696c5c46c.xls',
       'https://knute.edu.ua/file/MjQ=/06a276f7a6dbd34a2603bf23088fae15.xls'],
      dtype=object)

In [38]:
# відсортуєм по факультету-курсу
df_sorted = df.sort_values(by=['Факультет', 'Курс'])

In [39]:
df_sorted.head()

Unnamed: 0,Факультет,Курс,URL
0,ФІТ,1,https://knute.edu.ua/file/Mjc=/94cbb6b40086501...
6,ФІТ,2,https://knute.edu.ua/file/Mjc=/61a705fffcfafe3...
12,ФІТ,3,https://knute.edu.ua/file/MjY=/d7c8abdd57a72bc...
18,ФІТ,4,https://knute.edu.ua/file/MjY=/a4b4809a83ddf4c...
1,ФЕМП,1,https://knute.edu.ua/file/MjM=/00a149c4fc919d0...


In [40]:
df_sorted.set_index('Факультет')[:7]

Unnamed: 0_level_0,Курс,URL
Факультет,Unnamed: 1_level_1,Unnamed: 2_level_1
ФІТ,1,https://knute.edu.ua/file/Mjc=/94cbb6b40086501...
ФІТ,2,https://knute.edu.ua/file/Mjc=/61a705fffcfafe3...
ФІТ,3,https://knute.edu.ua/file/MjY=/d7c8abdd57a72bc...
ФІТ,4,https://knute.edu.ua/file/MjY=/a4b4809a83ddf4c...
ФЕМП,1,https://knute.edu.ua/file/MjM=/00a149c4fc919d0...
ФЕМП,2,https://knute.edu.ua/file/MjM=/16f88bf25a2c107...
ФЕМП,3,https://knute.edu.ua/file/MjM=/eb4d304e5e466b7...


## ІНДИВІДУАЛЬНЕ ЗАВДАННЯ

З [головної сторінки](https://knute.edu.ua/blog/read/?pid=1038&uk) сайту КНТЕУ вилучити інформацію про факультети, кафедри та посилання на відповідні сторінки та представити результат в наступному вигляді:

Назва факультету __<Закріпленій за вамі факультет>__

№   | Назва кафедри | URL кафедри
:--:|:--------|:--------
1 |  <_назва 1> | <url 1>
2 |  <_назва 1> | <url 1>
3 |  <_назва 1> | <url 1>
...| ... |...


In [89]:
# імпортувати бібліотеку Requests
import requests


In [90]:
# зчитати головну сторінку та виправити кодування (якщо необхідно)
main_page = requests.get('https://knute.edu.ua/main/?uk#')
main_page.encoding = main_page.apparent_encoding
main_page.text[:500]


'<!DOCTYPE html>\n<html ng-app="siteApp">\n  <head>\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><meta name="viewport" content="width=500px, initial-scale=0.7" /><meta property="og:image" content="/img/main_top.jpg" /><meta property="og:title" content="Київський національний торговельно-економічний університет" /><meta property="og:description" content="КНТЕУ, ЕЛІТНА ОСВІТА, Ретийнг внз, Економічна освіта, ВИЩА ОСВІТА, ОСВІТА В УКРАЇНІ, МАГІСТРАТУРА, ДОКТОРАНТУРА, МВА, МАРКЕ'

#### за допомогою [Chrome DevTools](https://htmlacademy.ru/blog/boost/tools/chrome-devtools-1) проаналізувати структуру сторінки, визначити об'єкти що потребують вилучення та розробити стратегію скрапінга

In [91]:
# імпортувати html-парсер бібліотеки  BeautifulSoup
from bs4 import BeautifulSoup as bs

In [92]:
# розпарсити сторінку `main_page`
main_page_text = main_page.text
main_page_parsed = bs(main_page_text, features = 'html.parser')

print(dir(main_page_parsed))



#### застосувати вибрану стратегію для вилученя назв кафедр та їх url

In [157]:
main_back = main_page_parsed.find('span', text = 'Факультет інформаційних технологій')

main_page_lst = main_back.find_parent('a').find_parent('li').findNextSiblings('li')
main_page_lst

result_main = []
for i in main_page_lst:
    hr = [i.text.split('\n')[0]] + ['https://knute.edu.ua' + a['href'] for a in i.find_all('a')]
    result_main.append(hr)


In [165]:
import pandas as pd

main_df = pd.DataFrame(result_main, columns = ['Назва кафедри', 'URL кафедри'])

print(' ---------------------------------------------- \n',
      '     Факультет інформаційних технологій \n',
      '---------------------------------------------- \n')
main_df.head(4)

 ---------------------------------------------- 
      Факультет інформаційних технологій 
 ---------------------------------------------- 



Unnamed: 0,Назва кафедри,URL кафедри
0,Кафедра інженерії програмного забезпечення та ...,https://knute.edu.ua/blog/read?n=Department So...
1,Кафедра цифрової економіки та системного аналізу,https://knute.edu.ua/blog/read?n=Department of...
2,Кафедра комп'ютерних наук та інформаційних систем,https://knute.edu.ua/blog/read?n=informaciynik...
3,Кафедра вищої та прикладної математики,https://knute.edu.ua/blog/read?n=Department of...
