#  Скрапінг-технології

## ТЕОРЕТИЧНА ЧАСТИНА ТА ПРИКЛАДИ

Вміст веб-сайтів(документів) - основне джерело видобутку даних.

[<img src="total-pages.png" width="500"/>](total-pages.png)
[<img src="page-size.png" width="500"/>](page-size.png)

Вилучення корисних даних з веб-сторінки називається [веб-скрапінгом](https://uk.wikipedia.org/wiki/Web_scraping)

_Технологія_ що покладена в основу веб-скрапінга - __HTML-парсінг__

Основні парсери HTML:

- [Beautiful Soup](https://en.wikipedia.org/wiki/Beautiful_Soup_(HTML_parser)) - загальноцілова бібліотека Python для парсінгу _статичних_ сайтів.
- [Selenium](https://ru.wikipedia.org/wiki/Selenium) - бібліотека з можливістю парсінга _динамічних_ веб-сайтів.
- [Scrapy](https://ru.wikipedia.org/wiki/Scrapy) - облегшена бібліотека для парсінгу нескладних статичних сайтів.

### Технологія веб-скрапінгу включає наступні етапи:

1. Визначення об'єктів, які підлягають видобутку
2. Вилучення html-сторінки з інтернет-ресурса
3. Визначення внутрішньої структури html-документа та стратегії вилученя даних
4. Застосування веб-скрапера для вилучення та накопичення даних в необхідні структури

#### Вилучення html-сторінки з інтернет-ресурса

__ПРИКЛАД:__ Отримати з сторінки [сайту розкладу КНТЕУ](https://knute.edu.ua/blog/read/?pid=1038&uk) _url-адреси_ excel-файлів розкладу бакалаврів по факультетам та надати результат у вигляді таблиці:

Факультет | Курс    | Адреса
:----------|:-------:|:-------|
ФІТ        |    1   |https://knute.edu.ua/file/MjY=/23d2ede3a07a98bec586cf2368cec077.xls 
ФІТ        |    2   |https://knute.edu.ua/file/MjY=/b829f1bdfd628d56b3c53f5015710678.xls
...        |  ...   | ...
ФМТП       |   4    |https://knute.edu.ua/file/Mjc=/6714dca44d23f37ff446ac7f1c5e2147.xls



Для організації взаємодії з інтернет-ресурсами по протоколу _http/https_ скористаємося бібліотека [Requests](https://www.digitalocean.com/community/tutorials/how-to-get-started-with-the-requests-library-in-python-ru)

In [None]:
# перевіримо наявність бібліотеки requests
! pip freeze | grep requests

In [17]:
# якщо її немає на комп'ютері, то встановимо
!pip install requests



In [18]:
# підключення бібліотеки 
import requests

In [19]:
print(dir(requests))



In [20]:
# модуль `get` відповідає за зчитування ресурса в об'єкт 'response'
requests.get?

In [21]:
# отримаємо сторінку розкладів 
url = 'https://knute.edu.ua/blog/read/?pid=1038&uk'
resp = requests.get(url)

In [22]:
print(dir(resp))

['__attrs__', '__bool__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__nonzero__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_content', '_content_consumed', '_next', 'apparent_encoding', 'close', 'connection', 'content', 'cookies', 'elapsed', 'encoding', 'headers', 'history', 'is_permanent_redirect', 'is_redirect', 'iter_content', 'iter_lines', 'json', 'links', 'next', 'ok', 'raise_for_status', 'raw', 'reason', 'request', 'status_code', 'text', 'url']


In [23]:
resp.text[:500]

'<!DOCTYPE html>\n<html ng-app="siteApp">\n  <head>\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><meta name="viewport" content="width=500px, initial-scale=0.7" /><meta property="og:image" content="/image/MTg0/8d0919156730f0275274fbf039c2a855.png" /><meta property="og:title" content="Ð\xa0Ð¾Ð·ÐºÐ»Ð°Ð´ Ð·Ð°Ð½Ñ\x8fÑ\x82Ñ\x8c, ÐµÐºÐ·Ð°Ð¼ÐµÐ½Ð°Ñ\x86Ñ\x96Ð¹Ð½Ð¾Ñ\x97 Ñ\x81ÐµÑ\x81Ñ\x96Ñ\x97, Ð°Ñ\x82ÐµÑ\x81Ñ\x82Ð°Ñ\x86Ñ\x96Ñ\x97 Ð·Ð´Ð¾Ð±Ñ\x83Ð²Ð°Ñ\x87Ñ\x96Ð² Ð²Ð¸Ñ\x89Ð¾Ñ\x97 Ð¾Ñ\x81Ð²Ñ\x96Ñ\x82Ð¸" /><meta property="og:description" content="Ð\x90Ð´Ñ\x80ÐµÑ\x81Ð¸ Ð½Ð°'

__перетворення кодування сторінки__

In [24]:
resp.encoding

'ISO-8859-1'

In [25]:
resp.apparent_encoding

'utf-8'

In [26]:
resp.encoding = resp.apparent_encoding

In [27]:
print(resp.text[:500])

<!DOCTYPE html>
<html ng-app="siteApp">
  <head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><meta name="viewport" content="width=500px, initial-scale=0.7" /><meta property="og:image" content="/image/MTg0/8d0919156730f0275274fbf039c2a855.png" /><meta property="og:title" content="Розклад занять, екзаменаційної сесії, атестації здобувачів вищої освіти" /><meta property="og:description" content="Адреси навчальних корпусів: А - вул. Кіото 19 (головний корпус) Б - вул. Кіото 


In [28]:
knteu_rasp_page = resp.text

#### Визначення внутрішньої структури html-документа та стратегії вилученя даних



Для визначення структури веб-документа найкращим засобом є використання [Chrome DevTools](https://developer.chrome.com/docs/devtools/) або аналогічних, що поставляються з сучасними браузерами.

#### скрапінг html-документа за допомогою [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/bs4ru.html)

In [29]:
# перевіримо наявність бібліотеки BeautifulSoup
! pip freeze | grep beautifulsoup

'grep' is not recognized as an internal or external command,
operable program or batch file.


In [30]:
# якщо її немає на комп'ютері, то встановимо
!pip install beautifulsoup4



In [31]:
# імпортуєм html-парсер з псевдоніміом 'bs'
from bs4 import BeautifulSoup as bs

bs?

In [32]:
# застосуємо html-парсер до завантаженої сторінки з розкладами 'knteu_rasp_page'
parsed_rasp = bs(knteu_rasp_page, features='html.parser')

In [33]:
print(dir(parsed_rasp))



__Ітеруємось по DOM веб-документа__

In [148]:
back = parsed_rasp.find('span', text='БАКАЛАВР')

In [149]:
rasp_table = back.find_parent('strong').find_parent('h3').findNextSibling('table')
print(rasp_table)

<table class="table table-striped" style="height:135px; width:100%">
<tbody>
<tr>
<td style="text-align:center"><strong>ФІТ</strong></td>
<td style="text-align:center"><strong>ФЕМП</strong></td>
<td style="text-align:center"><strong>ФТМ</strong></td>
<td style="text-align:center"><strong>ФРГТБ</strong></td>
<td style="text-align:center"><strong>ФФО</strong></td>
<td style="text-align:center"><strong>ФМТП</strong></td>
</tr>
<tr>
<td style="text-align:center"><a href="/file/MjY=/23d2ede3a07a98bec586cf2368cec077.xls"><strong>1
курс</strong></a></td>
<td style="text-align:center"><a href="/file/MjM=/d729b8ba54cdccb69db49f5a0d7d7eb1.xls"><strong>1
курс</strong></a></td>
<td style="text-align:center"><a href="/file/Mjc=/8d92d521c99d133fa3146b4dc74248f6.xls"><strong>1
курс </strong></a></td>
<td style="text-align:center"><a href="/file/MjU=/fb3cb5f71b89a5d292c64eaa785fbdd6.xls"><strong>1
курс</strong></a></td>
<td style="text-align:center"><a href="/file/MjQ=/0568469fe304887c2b4e67118558a662

In [150]:
# в результаті виділили таблицю з розкладом
rasp_lines = rasp_table.find_all('tr')
print(rasp_lines)

[<tr>
<td style="text-align:center"><strong>ФІТ</strong></td>
<td style="text-align:center"><strong>ФЕМП</strong></td>
<td style="text-align:center"><strong>ФТМ</strong></td>
<td style="text-align:center"><strong>ФРГТБ</strong></td>
<td style="text-align:center"><strong>ФФО</strong></td>
<td style="text-align:center"><strong>ФМТП</strong></td>
</tr>, <tr>
<td style="text-align:center"><a href="/file/MjY=/23d2ede3a07a98bec586cf2368cec077.xls"><strong>1
курс</strong></a></td>
<td style="text-align:center"><a href="/file/MjM=/d729b8ba54cdccb69db49f5a0d7d7eb1.xls"><strong>1
курс</strong></a></td>
<td style="text-align:center"><a href="/file/Mjc=/8d92d521c99d133fa3146b4dc74248f6.xls"><strong>1
курс </strong></a></td>
<td style="text-align:center"><a href="/file/MjU=/fb3cb5f71b89a5d292c64eaa785fbdd6.xls"><strong>1
курс</strong></a></td>
<td style="text-align:center"><a href="/file/MjQ=/0568469fe304887c2b4e67118558a662.xls"><strong>1
курс</strong></a></td>
<td style="text-align:center"><a hre

In [151]:
# в першому елементі - 'шапка' таблиці
head = rasp_lines[0].find_all('td')

head

[<td style="text-align:center"><strong>ФІТ</strong></td>,
 <td style="text-align:center"><strong>ФЕМП</strong></td>,
 <td style="text-align:center"><strong>ФТМ</strong></td>,
 <td style="text-align:center"><strong>ФРГТБ</strong></td>,
 <td style="text-align:center"><strong>ФФО</strong></td>,
 <td style="text-align:center"><strong>ФМТП</strong></td>]

In [152]:
# вибираємо назви факультетів в список
fac_names = [name.text for name in head]

fac_names

['ФІТ', 'ФЕМП', 'ФТМ', 'ФРГТБ', 'ФФО', 'ФМТП']

In [176]:
# далі з 1 рядка йдуть строки с посиланнями по курсам
rasp_lines[1:]
print(rasp_lines)

[<tr>
<td style="text-align:center"><strong>ФІТ</strong></td>
<td style="text-align:center"><strong>ФЕМП</strong></td>
<td style="text-align:center"><strong>ФТМ</strong></td>
<td style="text-align:center"><strong>ФРГТБ</strong></td>
<td style="text-align:center"><strong>ФФО</strong></td>
<td style="text-align:center"><strong>ФМТП</strong></td>
</tr>, <tr>
<td style="text-align:center"><a href="/file/MjY=/23d2ede3a07a98bec586cf2368cec077.xls"><strong>1
курс</strong></a></td>
<td style="text-align:center"><a href="/file/MjM=/d729b8ba54cdccb69db49f5a0d7d7eb1.xls"><strong>1
курс</strong></a></td>
<td style="text-align:center"><a href="/file/Mjc=/8d92d521c99d133fa3146b4dc74248f6.xls"><strong>1
курс </strong></a></td>
<td style="text-align:center"><a href="/file/MjU=/fb3cb5f71b89a5d292c64eaa785fbdd6.xls"><strong>1
курс</strong></a></td>
<td style="text-align:center"><a href="/file/MjQ=/0568469fe304887c2b4e67118558a662.xls"><strong>1
курс</strong></a></td>
<td style="text-align:center"><a hre

In [177]:
hrefs = [[a['href'], a.text.split('\n')[0]] for a in rasp_lines[1].find_all('a')]
hrefs

[['/file/MjY=/23d2ede3a07a98bec586cf2368cec077.xls', '1'],
 ['/file/MjM=/d729b8ba54cdccb69db49f5a0d7d7eb1.xls', '1'],
 ['/file/Mjc=/8d92d521c99d133fa3146b4dc74248f6.xls', '1'],
 ['/file/MjU=/fb3cb5f71b89a5d292c64eaa785fbdd6.xls', '1'],
 ['/file/MjQ=/0568469fe304887c2b4e67118558a662.xls', '1'],
 ['/file/Mjc=/8937e7f7074e7648821fb414979d6b4b.xls', '1']]

In [178]:
# вилучаємо номер курсу та адресу excel-файла в список 'result_list'
result_list = []
for line in rasp_lines[1:]:
    href = [[a.text.split('\n')[0], a['href']] for a in line.find_all('a')]
    result_list.append(list(zip(fac_names, href)))

In [179]:
# робимо остаточний список
result = []
for item in result_list:
    for elem in item:
        result.append([elem[0], elem[1][0], 'https://knute.edu.ua' + elem[1][1]])

In [180]:
result[:5]

[['Факультет міжнародної торгівлі та права',
  '1',
  'https://knute.edu.ua/file/MjY=/23d2ede3a07a98bec586cf2368cec077.xls'],
 ['Факультет торгівлі та маркетингу',
  '1',
  'https://knute.edu.ua/file/MjM=/d729b8ba54cdccb69db49f5a0d7d7eb1.xls'],
 ['Факультет економіки, менеджменту та психології',
  '1',
  'https://knute.edu.ua/file/Mjc=/8d92d521c99d133fa3146b4dc74248f6.xls'],
 ['Факультет інформаційних технологій',
  '1',
  'https://knute.edu.ua/file/MjU=/fb3cb5f71b89a5d292c64eaa785fbdd6.xls'],
 ['Факультет ресторанно-готельного та туристичного бізнесу ',
  '1',
  'https://knute.edu.ua/file/MjQ=/0568469fe304887c2b4e67118558a662.xls']]

In [181]:
import pandas as pd

In [182]:
# завантажимо результат в датафрейм
df = pd.DataFrame(result, columns=['Факультет', 'Курс', 'URL'])
df.head(10)

Unnamed: 0,Факультет,Курс,URL
0,Факультет міжнародної торгівлі та права,1,https://knute.edu.ua/file/MjY=/23d2ede3a07a98b...
1,Факультет торгівлі та маркетингу,1,https://knute.edu.ua/file/MjM=/d729b8ba54cdccb...
2,"Факультет економіки, менеджменту та психології",1,https://knute.edu.ua/file/Mjc=/8d92d521c99d133...
3,Факультет інформаційних технологій,1,https://knute.edu.ua/file/MjU=/fb3cb5f71b89a5d...
4,Факультет ресторанно-готельного та туристичног...,1,https://knute.edu.ua/file/MjQ=/0568469fe304887...
5,Факультет фінансів та обліку,1,https://knute.edu.ua/file/Mjc=/8937e7f7074e764...
6,Факультет міжнародної торгівлі та права,2,https://knute.edu.ua/file/MjY=/b829f1bdfd628d5...
7,Факультет торгівлі та маркетингу,2,https://knute.edu.ua/file/MjM=/48dfc2156c45dd3...
8,"Факультет економіки, менеджменту та психології",2,https://knute.edu.ua/file/Mjc=/be883a28665974c...
9,Факультет інформаційних технологій,2,https://knute.edu.ua/file/MjU=/44439574b6ed77d...


In [183]:
df['URL'].values[:5]

array(['https://knute.edu.ua/file/MjY=/23d2ede3a07a98bec586cf2368cec077.xls',
       'https://knute.edu.ua/file/MjM=/d729b8ba54cdccb69db49f5a0d7d7eb1.xls',
       'https://knute.edu.ua/file/Mjc=/8d92d521c99d133fa3146b4dc74248f6.xls',
       'https://knute.edu.ua/file/MjU=/fb3cb5f71b89a5d292c64eaa785fbdd6.xls',
       'https://knute.edu.ua/file/MjQ=/0568469fe304887c2b4e67118558a662.xls'],
      dtype=object)

In [184]:
# відсортуєм по факультету-курсу
df_sorted = df.sort_values(by=['Факультет', 'Курс'])

In [185]:
df_sorted.head()

Unnamed: 0,Факультет,Курс,URL
2,"Факультет економіки, менеджменту та психології",1,https://knute.edu.ua/file/Mjc=/8d92d521c99d133...
8,"Факультет економіки, менеджменту та психології",2,https://knute.edu.ua/file/Mjc=/be883a28665974c...
14,"Факультет економіки, менеджменту та психології",3,https://knute.edu.ua/file/Mjc=/37f7a0b81fab8ab...
20,"Факультет економіки, менеджменту та психології",4,https://knute.edu.ua/file/Mjc=/aa55cf0f6200e16...
0,Факультет міжнародної торгівлі та права,1,https://knute.edu.ua/file/MjY=/23d2ede3a07a98b...


In [186]:
df_sorted.set_index('Факультет')[:7]

Unnamed: 0_level_0,Курс,URL
Факультет,Unnamed: 1_level_1,Unnamed: 2_level_1
"Факультет економіки, менеджменту та психології",1,https://knute.edu.ua/file/Mjc=/8d92d521c99d133...
"Факультет економіки, менеджменту та психології",2,https://knute.edu.ua/file/Mjc=/be883a28665974c...
"Факультет економіки, менеджменту та психології",3,https://knute.edu.ua/file/Mjc=/37f7a0b81fab8ab...
"Факультет економіки, менеджменту та психології",4,https://knute.edu.ua/file/Mjc=/aa55cf0f6200e16...
Факультет міжнародної торгівлі та права,1,https://knute.edu.ua/file/MjY=/23d2ede3a07a98b...
Факультет міжнародної торгівлі та права,2,https://knute.edu.ua/file/MjY=/b829f1bdfd628d5...
Факультет міжнародної торгівлі та права,3,https://knute.edu.ua/file/MjY=/337eefe15b101d4...


## ІНДИВІДУАЛЬНЕ ЗАВДАННЯ

З [головної сторінки](https://knute.edu.ua/blog/read/?pid=1038&uk) сайту КНТЕУ вилучити інформацію про факультети, кафедри та посилання на відповідні сторінки та представити результат в наступному вигляді:

Назва факультету __<Закріпленій за вамі факультет>__

№   | Назва кафедри | URL кафедри
:--:|:--------|:--------
1 |  <_назва 1> | <url 1>
2 |  <_назва 1> | <url 1>
3 |  <_назва 1> | <url 1>
...| ... |...


In [1]:
# імпортувати бібліотеку Requests
import requests
print(dir(requests))



In [2]:
requests.get?

In [3]:
# зчитати головну сторінку та виправити кодування (якщо необхідно)
url = 'https://knute.edu.ua/'
main_page = requests.get(url)
print(dir(main_page))
main_page.text[:500]

['__attrs__', '__bool__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__nonzero__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_content', '_content_consumed', '_next', 'apparent_encoding', 'close', 'connection', 'content', 'cookies', 'elapsed', 'encoding', 'headers', 'history', 'is_permanent_redirect', 'is_redirect', 'iter_content', 'iter_lines', 'json', 'links', 'next', 'ok', 'raise_for_status', 'raw', 'reason', 'request', 'status_code', 'text', 'url']


'<!DOCTYPE html>\n<html ng-app="siteApp">\n  <head>\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><meta name="viewport" content="width=500px, initial-scale=0.7" /><meta property="og:image" content="/img/main_top.jpg" /><meta property="og:title" content="Ð\x9aÐ¸Ñ\x97Ð²Ñ\x81Ñ\x8cÐºÐ¸Ð¹ Ð½Ð°Ñ\x86Ñ\x96Ð¾Ð½Ð°Ð»Ñ\x8cÐ½Ð¸Ð¹ Ñ\x82Ð¾Ñ\x80Ð³Ð¾Ð²ÐµÐ»Ñ\x8cÐ½Ð¾-ÐµÐºÐ¾Ð½Ð¾Ð¼Ñ\x96Ñ\x87Ð½Ð¸Ð¹ Ñ\x83Ð½Ñ\x96Ð²ÐµÑ\x80Ñ\x81Ð¸Ñ\x82ÐµÑ\x82" /><meta property="og:description" content="Ð\x9aÐ\x9dÐ¢Ð\x95Ð£, Ð\x95Ð\x9bÐ\x86Ð¢Ð\x9dÐ\x90 Ð\x9eÐ¡Ð\x92Ð\x86Ð¢Ð\x90, Ð\xa0ÐµÑ\x82Ð¸Ð¹Ð½Ð³ Ð²Ð½Ð·, Ð\x95ÐºÐ¾Ð'

In [4]:
main_page.encoding
main_page.apparent_encoding
main_page.encoding = main_page.apparent_encoding
print(main_page.text[:500])
knteu_main_page = main_page.text

<!DOCTYPE html>
<html ng-app="siteApp">
  <head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><meta name="viewport" content="width=500px, initial-scale=0.7" /><meta property="og:image" content="/img/main_top.jpg" /><meta property="og:title" content="Київський національний торговельно-економічний університет" /><meta property="og:description" content="КНТЕУ, ЕЛІТНА ОСВІТА, Ретийнг внз, Економічна освіта, ВИЩА ОСВІТА, ОСВІТА В УКРАЇНІ, МАГІСТРАТУРА, ДОКТОРАНТУРА, МВА, МАРКЕ


#### за допомогою [Chrome DevTools](https://htmlacademy.ru/blog/boost/tools/chrome-devtools-1) проаналізувати структуру сторінки, визначити об'єкти що потребують вилучення та розробити стратегію скрапінга

In [5]:
# імпортувати html-парсер бібліотеки  BeautifulSoup
!pip install beautifulsoup4



In [6]:
from bs4 import BeautifulSoup as bs

bs?

In [7]:
# розпарсити сторінку `main_page`
main_page_parsed = bs(knteu_main_page, features='html.parser')

In [8]:
print(dir(main_page_parsed))



#### застосувати вибрану стратегію для вилученя назв кафедр та їх url

In [9]:
back = main_page_parsed.find('span', text='Факультети кафедри')
print(back)

<span class="short-menu-item">Факультети кафедри</span>


In [16]:
faculty_table_row = back.find_parent('a').find_parent('li').find_next('ul')
print(faculty_table_row)

<ul class="dropdown-menu">
<li><a href="/blog/read?n=fmtp&amp;uk"><span class="prev-link">Факультет міжнародної торгівлі та права</span></a></li><li><a class="att-menu-item" href="/blog/read?n=svitovoyi ekonomiki&amp;uk">Кафедра світової економіки</a></li><li><a class="att-menu-item" href="/blog/read?n=Department of International Economics&amp;uk">Кафедра міжнародного менеджменту</a></li><li><a class="att-menu-item" href="/blog/read?n=ipcc-law&amp;uk">Кафедра міжнародного, цивільного та комерційного права</a></li><li><a class="att-menu-item" href="/blog/read?n=Department of Commercial Law&amp;uk">Кафедра адміністративного, фінансового та інформаційного права</a></li><li><a class="att-menu-item" href="/blog/read?n=Department of Law&amp;uk">Кафедра правового забезпечення безпеки бізнесу</a></li><li><a class="att-menu-item" href="/blog/read?n=Department of Modern European Languages&amp;uk">Кафедра сучасних європейських мов</a></li><li><a class="att-menu-item" href="/blog/read?n=Department

In [47]:
data = []
for tag in faculty_table_row.find_all('li'):
    a_tag = tag.find('a')
    kaf_condition = a_tag.has_attr('class') and a_tag['class'][0] == 'att-menu-item'
    if 'href' in a_tag.attrs: 
        url = ['' if kaf_condition else a_tag.text,
               a_tag.text if kaf_condition else '',
               'https://knute.edu.ua' + a_tag.get('href')]
        data.append(url)

print(data)

[['Факультет міжнародної торгівлі та права', '', 'https://knute.edu.ua/blog/read?n=fmtp&uk'], ['', 'Кафедра світової економіки', 'https://knute.edu.ua/blog/read?n=svitovoyi ekonomiki&uk'], ['', 'Кафедра міжнародного менеджменту', 'https://knute.edu.ua/blog/read?n=Department of International Economics&uk'], ['', 'Кафедра міжнародного, цивільного та комерційного права', 'https://knute.edu.ua/blog/read?n=ipcc-law&uk'], ['', 'Кафедра адміністративного, фінансового та інформаційного права', 'https://knute.edu.ua/blog/read?n=Department of Commercial Law&uk'], ['', 'Кафедра правового забезпечення безпеки бізнесу', 'https://knute.edu.ua/blog/read?n=Department of Law&uk'], ['', 'Кафедра сучасних європейських мов', 'https://knute.edu.ua/blog/read?n=Department of Modern European Languages&uk'], ['', 'Кафедра філософії, соціології та політології', 'https://knute.edu.ua/blog/read?n=Department filosofsmbkikh ta socialmbnikh nauk&uk'], ['Факультет торгівлі та маркетингу', '', 'https://knute.edu.ua/bl

In [48]:
import pandas as pd

In [49]:
# завантажимо результат в датафрейм
df = pd.DataFrame(data, columns=['Факультет', "Кафедра", 'URL'])
df.head(10)

Unnamed: 0,Факультет,Кафедра,URL
0,Факультет міжнародної торгівлі та права,,https://knute.edu.ua/blog/read?n=fmtp&uk
1,,Кафедра світової економіки,https://knute.edu.ua/blog/read?n=svitovoyi eko...
2,,Кафедра міжнародного менеджменту,https://knute.edu.ua/blog/read?n=Department of...
3,,"Кафедра міжнародного, цивільного та комерційно...",https://knute.edu.ua/blog/read?n=ipcc-law&uk
4,,"Кафедра адміністративного, фінансового та інфо...",https://knute.edu.ua/blog/read?n=Department of...
5,,Кафедра правового забезпечення безпеки бізнесу,https://knute.edu.ua/blog/read?n=Department of...
6,,Кафедра сучасних європейських мов,https://knute.edu.ua/blog/read?n=Department of...
7,,"Кафедра філософії, соціології та політології",https://knute.edu.ua/blog/read?n=Department fi...
8,Факультет торгівлі та маркетингу,,https://knute.edu.ua/blog/read?n=ftm&uk
9,,Кафедра торговельного підприємництва та логістики,https://knute.edu.ua/blog/read?n=Department of...
