#  Скрапінг-технології

## ТЕОРЕТИЧНА ЧАСТИНА

Вміст веб-сайтів(документів) - основне джерело видобутку даних.

Вилучення корисних даних з веб-сторінки називається [веб-скрапінгом](https://uk.wikipedia.org/wiki/Web_scraping)

_Технологія_ що покладена в основу веб-скрапінга - __HTML-парсінг__

Основні парсери HTML:

- [Beautiful Soup](https://en.wikipedia.org/wiki/Beautiful_Soup_(HTML_parser)) - загальноцілова бібліотека Python для парсінгу _статичних_ сайтів.
- [Selenium](https://ru.wikipedia.org/wiki/Selenium) - бібліотека з можливістю парсінга _динамічних_ веб-сайтів.
- [Scrapy](https://ru.wikipedia.org/wiki/Scrapy) - облегшена бібліотека для парсінгу нескладних статичних сайтів.

### Технологія веб-скрапінгу включає наступні етапи:

1. Визначення об'єктів, які підлягають видобутку
2. Вилучення html-сторінки з інтернет-ресурса
3. Визначення внутрішньої структури html-документа та стратегії вилученя даних
4. Застосування веб-скрапера для вилучення та накопичення даних в необхідні структури

## ІНДИВІДУАЛЬНЕ ЗАВДАННЯ

З [головної сторінки](https://knute.edu.ua/blog/read/?pid=1038&uk) сайту КНТЕУ вилучити інформацію про факультети, кафедри та посилання на відповідні сторінки та представити результат в наступному вигляді:

Назва факультету __<Закріпленій за вамі факультет>__

№   | Назва кафедри | URL кафедри
:--:|:--------|:--------
1 |  <_назва 1> | <url 1>
2 |  <_назва 1> | <url 1>
3 |  <_назва 1> | <url 1>
...| ... |...


In [1]:
# імпортувати бібліотеку Requests
import requests as req
import pandas as pd
from urllib.parse import urljoin

pd.set_option('display.max_colwidth', None)

In [2]:
# зчитати головну сторінку та виправити кодування (якщо необхідно)
base = 'https://knute.edu.ua/' 
url = 'https://knute.edu.ua/blog/read/?pid=1038&uk'

page = req.get(url)
page.encoding = 'UTF-8'

dep = []

#### за допомогою [Chrome DevTools](https://htmlacademy.ru/blog/boost/tools/chrome-devtools-1) проаналізувати структуру сторінки, визначити об'єкти що потребують вилучення та розробити стратегію скрапінга

In [3]:
# імпортувати html-парсер бібліотеки  BeautifulSoup
from bs4 import BeautifulSoup

In [4]:
# розпарсити сторінку `main_page`
soup = BeautifulSoup(page.text, 'html.parser')

singe_child_element = soup.select_one('.att-menu-item')

single_parent_element = singe_child_element.find_parent('ul')

structures_list = single_parent_element.findChildren('a')

#### застосувати вибрану стратегію для вилученя назв кафедр та їх url

In [5]:
for element in structures_list:
    child = element.findChild('span')

    if(child is None):  
        department_name = element.string
        department_link = element.get('href').replace(' ', '%20')  

        dep.append({
        'Назва кафедри' : department_name,
        'URL кафедри' : urljoin(base, department_link)
        })   

    else:
        if dep:
            print('\n' + table_name + '\n')

            df = pd.DataFrame(dep)   
            df.index += 1  
            print(df)             

            dep.clear()          

        faculty_name = child.string
        faculty_link = element.get('href').replace(' ', '%20')

        table_name = '{0} - {1}'.format(faculty_name, urljoin(base,faculty_link)) 
        
print('\n' + table_name + '\n')

df = pd.DataFrame(dep)      
df.index += 1

print(df)    


Факультет міжнародної торгівлі та права - https://knute.edu.ua/blog/read?n=fmtp&uk

                                                    Назва кафедри  \
1                                      Кафедра світової економіки   
2                                Кафедра міжнародного менеджменту   
3          Кафедра міжнародного, цивільного та комерційного права   
4  Кафедра адміністративного, фінансового та інформаційного права   
5                  Кафедра правового забезпечення безпеки бізнесу   
6                               Кафедра сучасних європейських мов   
7                    Кафедра філософії, соціології та політології   

                                                                                  URL кафедри  
1                                   https://knute.edu.ua/blog/read?n=svitovoyi%20ekonomiki&uk  
2             https://knute.edu.ua/blog/read?n=Department%20of%20International%20Economics&uk  
3                                                https://knute.edu.ua/blog

#### 2-й спосіб (Кафедри та факультети окремо, не пов'язані між собою)

In [6]:
import requests as req
import pandas as pd
from urllib.parse import urljoin
from bs4 import BeautifulSoup

pd.set_option('display.max_colwidth', None)

base = 'https://knute.edu.ua/' 
url = 'https://knute.edu.ua/blog/read/?pid=1038&uk'

page = req.get(url)
page.encoding = 'UTF-8'

fac = []
dep = []

soup = BeautifulSoup(page.text, 'html.parser')

departments = soup.find_all('a', class_='att-menu-item')
faculties = soup.find_all('span', class_='prev-link')

for department in departments:
    dep_name = department.string
    dep_link_part = department.get('href').replace(' ', '%20')     

    dep.append({
        'Назва кафедри' : dep_name,
        'URL кафедри' : urljoin(base, dep_link_part)
    })    

for faculty in faculties:
    fac_name = faculty.string

    fac_parent = faculty.find_parent()
    fac_link_part = fac_parent.get('href').replace(' ', '%20')      

    fac.append({
        'Назва факультету' : fac_name,
        'URL факультету' : urljoin(base, fac_link_part)
    })
    
fac_df = pd.DataFrame(fac)
fac_df.index +=1

dep_df = pd.DataFrame(dep)
dep_df.index +=1

print(fac_df)
print()
print(dep_df)

                                           Назва факультету  \
1                   Факультет міжнародної торгівлі та права   
2                          Факультет торгівлі та маркетингу   
3            Факультет економіки, менеджменту та психології   
4                        Факультет інформаційних технологій   
5  Факультет ресторанно-готельного та туристичного бізнесу    
6                              Факультет фінансів та обліку   

                              URL факультету  
1   https://knute.edu.ua/blog/read?n=fmtp&uk  
2    https://knute.edu.ua/blog/read?n=ftm&uk  
3   https://knute.edu.ua/blog/read?n=femp&uk  
4    https://knute.edu.ua/blog/read?n=fit&uk  
5  https://knute.edu.ua/blog/read?n=frgtb&uk  
6    https://knute.edu.ua/blog/read?n=ffo&uk  

                                                     Назва кафедри  \
1                                       Кафедра світової економіки   
2                                 Кафедра міжнародного менеджменту   
3           Кафедр