In [64]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [66]:
URLS = [
    "https://www.tyuiu.ru/obrazovanie/instituty/institut-servisa-i-otraslevogo-upravleniia/abiturientam",
    "https://www.tyuiu.ru/obrazovanie/instituty/institut-transporta/abiturientam",
    "https://www.tyuiu.ru/obrazovanie/instituty/vyssaia-skola-cifrovyx-texnologii/abiturientam",
    "https://www.tyuiu.ru/obrazovanie/instituty/institut-promyslennyx-texnologii-i-inziniringa/abiturientam",
    "https://tyuiu.ru/obrazovanie/instituty/stroitelnyi-institut/abiturientam",
    "https://www.tyuiu.ru/obrazovanie/instituty/institut-geologii-i-neftegazodobyci/abiturientam",
]

In [67]:
def get_name(soup: BeautifulSoup) -> str:
    name = soup.find("h3", attrs={"header-block header-three"})
    return name.text.strip()


def get_description(soup: BeautifulSoup) -> str:
    return soup.get_text(strip=True)


In [68]:
directions_data = []
for url in URLS:
    response = requests.get(url)
    html = response.text
    soup = BeautifulSoup(html, "html.parser")
    directions = soup.find_all("div", attrs={"class": "column-block column-three"})
    print(f"Count of directions on page: {len(directions)}")
    for direction in directions:
        name = get_name(direction)
        description = get_description(direction)
        directions_data.append({
            "name": name,
            "description": description
        })
        

len(directions_data)

Count of directions on page: 20
Count of directions on page: 2
Count of directions on page: 7
Count of directions on page: 14
Count of directions on page: 4
Count of directions on page: 10


57

In [69]:
df = pd.DataFrame(directions_data)
df.head(3)

Unnamed: 0,name,description
0,13.03.01 Теплоэнергетика и теплотехника,13.03.01 Теплоэнергетика и теплотехникаФорма о...
1,20.03.01 Техносферная безопасность,20.03.01 Техносферная безопасностьФорма обучен...
2,21.03.02 Землеустройство и кадастры,21.03.02 Землеустройство и кадастрыФорма обуче...


In [70]:
def remove_name_from_description(row):
    return row['description'].replace(row['name'], '')


df['description'] = df.apply(remove_name_from_description, axis=1)
df["description"].head(3)

0    Форма обучения:Очно/ЗаочноПрофиль:Промышленная...
1    Форма обучения:Очно/заочноПрофили:Инженерная\n...
2    Форма обучения:Очно/ЗаочноПрофиль:Кадастр недв...
Name: description, dtype: object

In [71]:
df.head(3)

Unnamed: 0,name,description
0,13.03.01 Теплоэнергетика и теплотехника,Форма обучения:Очно/ЗаочноПрофиль:Промышленная...
1,20.03.01 Техносферная безопасность,Форма обучения:Очно/заочноПрофили:Инженерная\n...
2,21.03.02 Землеустройство и кадастры,Форма обучения:Очно/ЗаочноПрофиль:Кадастр недв...


In [72]:
df

Unnamed: 0,name,description
0,13.03.01 Теплоэнергетика и теплотехника,Форма обучения:Очно/ЗаочноПрофиль:Промышленная...
1,20.03.01 Техносферная безопасность,Форма обучения:Очно/заочноПрофили:Инженерная\n...
2,21.03.02 Землеустройство и кадастры,Форма обучения:Очно/ЗаочноПрофиль:Кадастр недв...
3,27.03.03 Системный анализ и управление,"Форма обучения:ОчноПрофили:Системный анализ, у..."
4,42.03.01 Реклама и связи с общественностью,Форма обучения:Очно/ЗаочноПрофиль:Диджитал мар...
5,43.03.01 Сервис,Форма обучения:ОчноПрофиль:Экономика сервисног...
6,43.03.01 Сервис,Форма обучения:ОчноПрофиль:Конгрессно-выставоч...
7,43.03.03 Гостиничное дело,Форма обучения:ОчноПрофиль:Индустрия гостеприи...
8,38.03.01 Экономика,Форма обучения:ОчноПрофиль:Инженерная экономик...
9,38.03.02 Менеджмент,Форма обучения:ОчноПрофиль:Отраслевой и корпор...


In [73]:
df.to_csv("ТИУ Направления подготовки Бакалавриат.csv")