#  Скрапінг-технології

## ТЕОРЕТИЧНА ЧАСТИНА ТА ПРИКЛАДИ

Вміст веб-сайтів(документів) - основне джерело видобутку даних.

Вилучення корисних даних з веб-сторінки називається [веб-скрапінгом](https://uk.wikipedia.org/wiki/Web_scraping)

_Технологія_ що покладена в основу веб-скрапінга - __HTML-парсінг__

Основні парсери HTML:

- [Beautiful Soup](https://en.wikipedia.org/wiki/Beautiful_Soup_(HTML_parser)) - загальноцілова бібліотека Python для парсінгу _статичних_ сайтів.
- [Selenium](https://ru.wikipedia.org/wiki/Selenium) - бібліотека з можливістю парсінга _динамічних_ веб-сайтів.
- [Scrapy](https://ru.wikipedia.org/wiki/Scrapy) - облегшена бібліотека для парсінгу нескладних статичних сайтів.

### Технологія веб-скрапінгу включає наступні етапи:

1. Визначення об'єктів, які підлягають видобутку
2. Вилучення html-сторінки з інтернет-ресурса
3. Визначення внутрішньої структури html-документа та стратегії вилученя даних
4. Застосування веб-скрапера для вилучення та накопичення даних в необхідні структури

#### Вилучення html-сторінки з інтернет-ресурса

__ПРИКЛАД:__ Отримати з сторінки [сайту розкладу КНТЕУ](https://knute.edu.ua/blog/read/?pid=1038&uk) _url-адреси_ excel-файлів розкладу бакалаврів по факультетам та надати результат у вигляді таблиці:

Факультет | Курс    | Адреса
:----------|:-------:|:-------|
ФІТ        |    1   |https://knute.edu.ua/file/MjY=/23d2ede3a07a98bec586cf2368cec077.xls 
ФІТ        |    2   |https://knute.edu.ua/file/MjY=/b829f1bdfd628d56b3c53f5015710678.xls
...        |  ...   | ...
ФМТП       |   4    |https://knute.edu.ua/file/Mjc=/6714dca44d23f37ff446ac7f1c5e2147.xls



Для організації взаємодії з інтернет-ресурсами по протоколу _http/https_ скористаємося бібліотека [Requests](https://www.digitalocean.com/community/tutorials/how-to-get-started-with-the-requests-library-in-python-ru)

In [None]:
# перевіримо наявність бібліотеки requests
!pip freeze | grep requests

In [None]:
# якщо її немає на комп'ютері, то встановимо
!pip install requests

In [1]:
# підключення бібліотеки 
import requests

In [2]:
print(dir(requests))



In [3]:
# модуль `get` відповідає за зчитування ресурса в об'єкт 'response'
requests.get?

In [4]:
# отримаємо сторінку розкладів 
url = 'https://knute.edu.ua/blog/read/?pid=1038&uk'
resp = requests.get(url)

In [5]:
print(dir(resp))

['__attrs__', '__bool__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__nonzero__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_content', '_content_consumed', '_next', 'apparent_encoding', 'close', 'connection', 'content', 'cookies', 'elapsed', 'encoding', 'headers', 'history', 'is_permanent_redirect', 'is_redirect', 'iter_content', 'iter_lines', 'json', 'links', 'next', 'ok', 'raise_for_status', 'raw', 'reason', 'request', 'status_code', 'text', 'url']


In [6]:
resp.status_code?

In [7]:
resp.text[:500]

'<!DOCTYPE html>\n<html ng-app="siteApp">\n  <head>\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><meta name="viewport" content="width=500px, initial-scale=0.7" /><meta property="og:image" content="/image/MTg0/8d0919156730f0275274fbf039c2a855.png" /><meta property="og:title" content="Ð\xa0Ð¾Ð·ÐºÐ»Ð°Ð´ Ð·Ð°Ð½Ñ\x8fÑ\x82Ñ\x8c, ÐµÐºÐ·Ð°Ð¼ÐµÐ½Ð°Ñ\x86Ñ\x96Ð¹Ð½Ð¾Ñ\x97 Ñ\x81ÐµÑ\x81Ñ\x96Ñ\x97, Ð°Ñ\x82ÐµÑ\x81Ñ\x82Ð°Ñ\x86Ñ\x96Ñ\x97 Ð·Ð´Ð¾Ð±Ñ\x83Ð²Ð°Ñ\x87Ñ\x96Ð² Ð²Ð¸Ñ\x89Ð¾Ñ\x97 Ð¾Ñ\x81Ð²Ñ\x96Ñ\x82Ð¸" /><meta property="og:description" content="Ð\x90Ð´Ñ\x80ÐµÑ\x81Ð¸ Ð½Ð°'

__перетворення кодування сторінки__

In [8]:
resp.encoding

'ISO-8859-1'

In [9]:
resp.apparent_encoding

'utf-8'

In [10]:
resp.encoding = resp.apparent_encoding

In [11]:
print(resp.text[:500])

<!DOCTYPE html>
<html ng-app="siteApp">
  <head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><meta name="viewport" content="width=500px, initial-scale=0.7" /><meta property="og:image" content="/image/MTg0/8d0919156730f0275274fbf039c2a855.png" /><meta property="og:title" content="Розклад занять, екзаменаційної сесії, атестації здобувачів вищої освіти" /><meta property="og:description" content="Адреси навчальних корпусів: А - вул. Кіото 19 (головний корпус) Б - вул. Кіото 


In [12]:
knteu_rasp_page = resp.text

#### Визначення внутрішньої структури html-документа та стратегії вилученя даних



Для визначення структури веб-документа найкращим засобом є використання [Chrome DevTools](https://developer.chrome.com/docs/devtools/) або аналогічних, що поставляються з сучасними браузерами.

#### скрапінг html-документа за допомогою [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/bs4ru.html)

In [None]:
# перевіримо наявність бібліотеки BeautifulSoup
!pip freeze | grep beautifulsoup

In [None]:
# якщо її немає на комп'ютері, то встановимо
!pip install beautifulsoup4

In [14]:
# імпортуєм html-парсер з псевдоніміом 'bs'
from bs4 import BeautifulSoup as bs

bs?

In [15]:
# застосуємо html-парсер до завантаженої сторінки з розкладами 'knteu_rasp_page'
parsed_rasp = bs(knteu_rasp_page, features='html.parser')

In [16]:
type(parsed_rasp)

bs4.BeautifulSoup

In [17]:
print(dir(parsed_rasp))



__Ітеруємось по DOM веб-документа__

In [18]:
back = parsed_rasp.find('span', text='БАКАЛАВР')

In [19]:
type(back)

bs4.element.Tag

In [20]:
back

<span style="color:#0000CD;">БАКАЛАВР</span>

In [21]:
rasp_table = back.find_parent('strong').find_parent('h3').findNextSibling('table')

In [22]:
# в результаті виділили таблицю з розкладом
rasp_lines = rasp_table.find_all('tr')

In [23]:
rasp_lines[0]

<tr>
<td style="text-align:center"><strong>ФІТ</strong></td>
<td style="text-align:center"><strong>ФЕМП</strong></td>
<td style="text-align:center"><strong>ФТМ</strong></td>
<td style="text-align:center"><strong>ФРГТБ</strong></td>
<td style="text-align:center"><strong>ФФО</strong></td>
<td style="text-align:center"><strong>ФМТП</strong></td>
</tr>

In [24]:
# в першому елементі - 'шапка' таблиці
head = rasp_lines[0].find_all('td')

head

[<td style="text-align:center"><strong>ФІТ</strong></td>,
 <td style="text-align:center"><strong>ФЕМП</strong></td>,
 <td style="text-align:center"><strong>ФТМ</strong></td>,
 <td style="text-align:center"><strong>ФРГТБ</strong></td>,
 <td style="text-align:center"><strong>ФФО</strong></td>,
 <td style="text-align:center"><strong>ФМТП</strong></td>]

In [25]:
type(head)

bs4.element.ResultSet

In [26]:
type(head[1])

bs4.element.Tag

In [27]:
# вибираємо назви факультетів в список
fac_names = [tag_td.text for tag_td in head]

fac_names

['ФІТ', 'ФЕМП', 'ФТМ', 'ФРГТБ', 'ФФО', 'ФМТП']

In [28]:
# далі з 1 рядка йдуть строки с посиланнями по курсам
rasp_lines[1:2]

[<tr>
 <td style="text-align:center"><a href="/file/Mjc=/94cbb6b400865014c96ae8218fbf00af.xls"><strong>1
 курс</strong></a></td>
 <td style="text-align:center"><a href="/file/MjM=/00a149c4fc919d08c0e23dd6cf48e3c1.xls"><strong>1
 курс</strong></a></td>
 <td style="text-align:center"><a href="/file/MjU=/939ac6acfe68e6f975318d70bfd32a71.xls"><strong>1
 курс </strong></a></td>
 <td style="text-align:center"><a href="/file/MjU=/a8e8af1e391cc5095f8d72d696c5c46c.xls"><strong>1
 курс</strong></a></td>
 <td style="text-align:center"><a href="/file/MjQ=/06a276f7a6dbd34a2603bf23088fae15.xls"><strong>1
 курс</strong></a></td>
 <td style="text-align:center"><a href="/file/Mjc=/b90e05a538f0692f46cb5c675d263b4c.xls"><strong>1
 курс</strong></a></td>
 </tr>]

In [29]:
hrefs = [[a['href'], a.text.split('\n')[0]] for a in rasp_lines[1].find_all('a')]
hrefs

[['/file/Mjc=/94cbb6b400865014c96ae8218fbf00af.xls', '1'],
 ['/file/MjM=/00a149c4fc919d08c0e23dd6cf48e3c1.xls', '1'],
 ['/file/MjU=/939ac6acfe68e6f975318d70bfd32a71.xls', '1'],
 ['/file/MjU=/a8e8af1e391cc5095f8d72d696c5c46c.xls', '1'],
 ['/file/MjQ=/06a276f7a6dbd34a2603bf23088fae15.xls', '1'],
 ['/file/Mjc=/b90e05a538f0692f46cb5c675d263b4c.xls', '1']]

In [30]:
# вилучаємо номер курсу та адресу excel-файла в список 'result_list'
result_list = []
for line in rasp_lines[1:]:
    href = [[a.text.split('\n')[0], a['href']] for a in line.find_all('a')]
    result_list.append(list(zip(fac_names, href)))

In [31]:
# робимо остаточний список
result = []
for item in result_list:
    for elem in item:
        result.append([elem[0], elem[1][0], 'https://knute.edu.ua' + elem[1][1]])

In [32]:
result[:3]

[['ФІТ',
  '1',
  'https://knute.edu.ua/file/Mjc=/94cbb6b400865014c96ae8218fbf00af.xls'],
 ['ФЕМП',
  '1',
  'https://knute.edu.ua/file/MjM=/00a149c4fc919d08c0e23dd6cf48e3c1.xls'],
 ['ФТМ',
  '1',
  'https://knute.edu.ua/file/MjU=/939ac6acfe68e6f975318d70bfd32a71.xls']]

In [33]:
import pandas as pd

In [34]:
# завантажимо результат в датафрейм
df = pd.DataFrame(result, columns=['Факультет', 'Курс', 'URL'])
df.head(10)

Unnamed: 0,Факультет,Курс,URL
0,ФІТ,1,https://knute.edu.ua/file/Mjc=/94cbb6b40086501...
1,ФЕМП,1,https://knute.edu.ua/file/MjM=/00a149c4fc919d0...
2,ФТМ,1,https://knute.edu.ua/file/MjU=/939ac6acfe68e6f...
3,ФРГТБ,1,https://knute.edu.ua/file/MjU=/a8e8af1e391cc50...
4,ФФО,1,https://knute.edu.ua/file/MjQ=/06a276f7a6dbd34...
5,ФМТП,1,https://knute.edu.ua/file/Mjc=/b90e05a538f0692...
6,ФІТ,2,https://knute.edu.ua/file/Mjc=/61a705fffcfafe3...
7,ФЕМП,2,https://knute.edu.ua/file/MjM=/16f88bf25a2c107...
8,ФТМ,2,https://knute.edu.ua/file/Mjc=/9f3f50dd0189303...
9,ФРГТБ,2,https://knute.edu.ua/file/MjU=/e50c5d26bf4c88c...


In [35]:
df['URL'].values[:5]

array(['https://knute.edu.ua/file/Mjc=/94cbb6b400865014c96ae8218fbf00af.xls',
       'https://knute.edu.ua/file/MjM=/00a149c4fc919d08c0e23dd6cf48e3c1.xls',
       'https://knute.edu.ua/file/MjU=/939ac6acfe68e6f975318d70bfd32a71.xls',
       'https://knute.edu.ua/file/MjU=/a8e8af1e391cc5095f8d72d696c5c46c.xls',
       'https://knute.edu.ua/file/MjQ=/06a276f7a6dbd34a2603bf23088fae15.xls'],
      dtype=object)

In [36]:
# відсортуєм по факультету-курсу
df_sorted = df.sort_values(by=['Факультет', 'Курс'])

In [37]:
df_sorted.head()

Unnamed: 0,Факультет,Курс,URL
0,ФІТ,1,https://knute.edu.ua/file/Mjc=/94cbb6b40086501...
6,ФІТ,2,https://knute.edu.ua/file/Mjc=/61a705fffcfafe3...
12,ФІТ,3,https://knute.edu.ua/file/MjY=/d7c8abdd57a72bc...
18,ФІТ,4,https://knute.edu.ua/file/MjY=/a4b4809a83ddf4c...
1,ФЕМП,1,https://knute.edu.ua/file/MjM=/00a149c4fc919d0...


In [38]:
df_sorted.set_index('Факультет')[:7]

Unnamed: 0_level_0,Курс,URL
Факультет,Unnamed: 1_level_1,Unnamed: 2_level_1
ФІТ,1,https://knute.edu.ua/file/Mjc=/94cbb6b40086501...
ФІТ,2,https://knute.edu.ua/file/Mjc=/61a705fffcfafe3...
ФІТ,3,https://knute.edu.ua/file/MjY=/d7c8abdd57a72bc...
ФІТ,4,https://knute.edu.ua/file/MjY=/a4b4809a83ddf4c...
ФЕМП,1,https://knute.edu.ua/file/MjM=/00a149c4fc919d0...
ФЕМП,2,https://knute.edu.ua/file/MjM=/16f88bf25a2c107...
ФЕМП,3,https://knute.edu.ua/file/MjM=/eb4d304e5e466b7...


## ІНДИВІДУАЛЬНЕ ЗАВДАННЯ

З [головної сторінки](https://knute.edu.ua/blog/read/?pid=1038&uk) сайту КНТЕУ вилучити інформацію про факультети, кафедри та посилання на відповідні сторінки та представити результат в наступному вигляді:

Назва факультету __<Закріпленій за вамі факультет>__

№   | Назва кафедри | URL кафедри
:--:|:--------|:--------
1 |  <_назва 1> | <url 1>
2 |  <_назва 1> | <url 1>
3 |  <_назва 1> | <url 1>
...| ... |...


In [39]:
# імпортувати бібліотеку Requests
import requests

In [40]:
# зчитати головну сторінку та виправити кодування (якщо необхідно)
main_page = requests.get("https://knute.edu.ua/blog/read/?pid=1038&uk")

print(f"(1): main_page (перевірка доступу до веб-сторінки)\
      \n{main_page}", end='\n\n') # Виведе: <Response [200]>

# вивести html-код сторінки
print(f"(2): main_page.text (перевірка змісту веб-сторінки)\
      \n{main_page.text[:500]}", end='\n\n')

print(f"(3): main_page.encoding (перевірка кодування веб-сторінки)\
      \n{main_page.encoding}", end='\n\n')

print(f"(4): main_page.apparent_encoding (виправлення кодування веб-сторінки)\
      \n{main_page.apparent_encoding}", end='\n\n')

main_page.encoding = main_page.apparent_encoding

print(f"(5): main_page.text (перевірка змісту веб-сторінки після виправлення кодування)\
      \n{main_page.text[:500]}", end='\n\n')

knteu_rasp_page = main_page.text

(1): main_page (перевірка доступу до веб-сторінки)      
<Response [200]>

(2): main_page.text (перевірка змісту веб-сторінки)      
<!DOCTYPE html>
<html ng-app="siteApp">
  <head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><meta name="viewport" content="width=500px, initial-scale=0.7" /><meta property="og:image" content="/image/MTg0/8d0919156730f0275274fbf039c2a855.png" /><meta property="og:title" content="Ð Ð¾Ð·ÐºÐ»Ð°Ð´ Ð·Ð°Ð½ÑÑÑ, ÐµÐºÐ·Ð°Ð¼ÐµÐ½Ð°ÑÑÐ¹Ð½Ð¾Ñ ÑÐµÑÑÑ, Ð°ÑÐµÑÑÐ°ÑÑÑ Ð·Ð´Ð¾Ð±ÑÐ²Ð°ÑÑÐ² Ð²Ð¸ÑÐ¾Ñ Ð¾ÑÐ²ÑÑÐ¸" /><meta property="og:description" content="ÐÐ´ÑÐµÑÐ¸ Ð½Ð°

(3): main_page.encoding (перевірка кодування веб-сторінки)      
ISO-8859-1

(4): main_page.apparent_encoding (виправлення кодування веб-сторінки)      
utf-8

(5): main_page.text (перевірка змісту веб-сторінки після виправлення кодування)      
<!DOCTYPE html>
<html ng-app="siteApp">
  <head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><

#### за допомогою [Chrome DevTools](https://htmlacademy.ru/blog/boost/tools/chrome-devtools-1) проаналізувати структуру сторінки, визначити об'єкти що потребують вилучення та розробити стратегію скрапінга

In [41]:
# імпортувати html-парсер бібліотеки  BeautifulSoup
# import bs4.BeautifulSoup as bs
# або так
from bs4 import BeautifulSoup as bs

In [42]:
# розпарсити сторінку `main_page`

def make_table_dict2(fac_dep_hrefs):
    '''функція будує словник де ключ - назва факультету,
    значення - список: [<кафедра>, <url-кафедри>]'''
    
    table_dict2 = {}
    
    for f_d_h in fac_dep_hrefs:        
        if "Факультет" in f_d_h[0]:
            table_dict2[f_d_h[0]] = []
            current_fac_name = f_d_h[0]
        else:
            table_dict2[current_fac_name].append([f_d_h[0], 'https://knute.edu.ua' + f_d_h[1]])
    return table_dict2

main_page_parsed = bs(knteu_rasp_page, features='html.parser')

# вилучаємо необхідний контент
fac_list = main_page_parsed.find_all("ul", class_="nav")[0] \
                           .find_all("li", class_="dropdown")[1] \
                           .find_all("a")

# вилучаємо елементи, які містять 'факультет' або 'кафедра'
names = [fac.string for fac in fac_list if 
        "Факультет " in fac.string or "Кафедра" in fac.string]

print(f"(1): names (список факультетів та кафедр)\
      \n{names[:10]}", end='\n\n')

# вилучаємо елементи, які містять тільки 'факультет'
faculties = [fac_n.string for fac_n in names if "Факультет " in fac_n.string]

print(f"(2): faculties (список факультетів)\
      \n{faculties}", end='\n\n')

# вилучаємо елементи, які містять тільки 'кафедра'
departments = [dep_n.string for dep_n in names if "Кафедра " in dep_n.string]

print(f"(3): departments (список кафедр)\
      \n{departments[:10]}", end='\n\n')

# вилучаємо елементи, які містять 'факультет', 'кафедру' або 'url факультету/кафедри'
fac_dep_hrefs = [[d_h.string, d_h['href']] for d_h in fac_list if
            "Факультет " in d_h.string or "Кафедра " in d_h.string and "/blog/read?n=" in d_h['href']]

print(f"(4): fac_dep_hrefs (<опис>)\
      \n{fac_dep_hrefs[:10]}", end='\n\n')

table_dict2 = make_table_dict2(fac_dep_hrefs)

table_dict2

(1): names (список факультетів та кафедр)      
['Факультет міжнародної торгівлі та права', 'Кафедра світової економіки', 'Кафедра міжнародного менеджменту', 'Кафедра міжнародного, цивільного та комерційного права', 'Кафедра адміністративного, фінансового та інформаційного права', 'Кафедра правового забезпечення безпеки бізнесу', 'Кафедра сучасних європейських мов', 'Кафедра філософії, соціології та політології', 'Факультет торгівлі та маркетингу', 'Кафедра торговельного підприємництва та логістики']

(2): faculties (список факультетів)      
['Факультет міжнародної торгівлі та права', 'Факультет торгівлі та маркетингу', 'Факультет економіки, менеджменту та психології', 'Факультет інформаційних технологій', 'Факультет ресторанно-готельного та туристичного бізнесу ', 'Факультет фінансів та обліку']

(3): departments (список кафедр)      
['Кафедра світової економіки', 'Кафедра міжнародного менеджменту', 'Кафедра міжнародного, цивільного та комерційного права', 'Кафедра адміністративного

{'Факультет міжнародної торгівлі та права': [['Кафедра світової економіки',
   'https://knute.edu.ua/blog/read?n=svitovoyi ekonomiki&uk'],
  ['Кафедра міжнародного менеджменту',
   'https://knute.edu.ua/blog/read?n=Department of International Economics&uk'],
  ['Кафедра міжнародного, цивільного та комерційного права',
   'https://knute.edu.ua/blog/read?n=ipcc-law&uk'],
  ['Кафедра адміністративного, фінансового та інформаційного права',
   'https://knute.edu.ua/blog/read?n=Department of Commercial Law&uk'],
  ['Кафедра правового забезпечення безпеки бізнесу',
   'https://knute.edu.ua/blog/read?n=Department of Law&uk'],
  ['Кафедра сучасних європейських мов',
   'https://knute.edu.ua/blog/read?n=Department of Modern European Languages&uk'],
  ['Кафедра філософії, соціології та політології',
   'https://knute.edu.ua/blog/read?n=Department filosofsmbkikh ta socialmbnikh nauk&uk']],
 'Факультет торгівлі та маркетингу': [['Кафедра торговельного підприємництва та логістики',
   'https://knut

#### застосувати вибрану стратегію для вилученя назв кафедр та їх url

In [43]:
import pandas as pd

# список для зберігання датафрейму кожного факультету
fac_df = []

# створення датафрейму для кожного факультету
for fac in faculties:

    columns = ['Назва кафедри', 'URL кафедри']
#     print(f"(1): columns \
#           \n{columns}", end='\n\n')
    columns = list(zip([f'{fac}'] * 2, columns))
#     print(f"(2): columns \
#           \n{columns}", end='\n\n')
    #[('<факультет>', 'Назва кафедри'), ('<факультет>', 'URL кафедри')]
    columns = pd.MultiIndex.from_tuples(columns, names=['', '№'])
#     print(f"(3): columns \
#           \n{columns}", end='\n\n')
    
    fac_df += [pd.DataFrame(table_dict2[fac], index=range(1,len(table_dict2[fac])+1), columns=columns)]

# вивести перший датафрейм
fac_df[0]

Unnamed: 0_level_0,Факультет міжнародної торгівлі та права,Факультет міжнародної торгівлі та права
№,Назва кафедри,URL кафедри
1,Кафедра світової економіки,https://knute.edu.ua/blog/read?n=svitovoyi eko...
2,Кафедра міжнародного менеджменту,https://knute.edu.ua/blog/read?n=Department of...
3,"Кафедра міжнародного, цивільного та комерційно...",https://knute.edu.ua/blog/read?n=ipcc-law&uk
4,"Кафедра адміністративного, фінансового та інфо...",https://knute.edu.ua/blog/read?n=Department of...
5,Кафедра правового забезпечення безпеки бізнесу,https://knute.edu.ua/blog/read?n=Department of...
6,Кафедра сучасних європейських мов,https://knute.edu.ua/blog/read?n=Department of...
7,"Кафедра філософії, соціології та політології",https://knute.edu.ua/blog/read?n=Department fi...
