In [None]:
import requests
from bs4 import BeautifulSoup
import mistune
import time
import os
import re


# Custom renderer to treat HTML tags as plain text
class MyRenderer(mistune.Renderer):
    def text(self, text):
        return text

    def paragraph(self, text):
        return text + '\n\n'

    def block_code(self, code, lang=None):
        return '\n\n```\n{}\n```\n\n'.format(code)

    def block_quote(self, text):
        return '> {}\n\n'.format(text)

    def header(self, text, level, raw=None):
        return '{} {}\n\n'.format('#' * level, text)

    def list(self, body, ordered=True):
        return '{}\n\n'.format(body)

    def list_item(self, text):
        return '- {}\n'.format(text)

    def double_emphasis(self, text):
        return '**{}**'.format(text)

    def emphasis(self, text):
        return '*{}*'.format(text)

    def strikethrough(self, text):
        return '~~{}~~'.format(text)

    def linebreak(self):
        return '\n'

def clean_text(text):
    # Remove excessive line breaks and carriage returns
    cleaned_text = re.sub(r'[\r\n]+', '\n', text)
    cleaned_text = re.sub(r' +', ' ', text)
    cleaned_text = re.sub(r'^( +)', '', text, flags=re.MULTILINE)
    return cleaned_text

def parse_page(url):
    visited.add(url)
    print(f"Parsing page: {url}")

    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    # Extract text content and clean it
    text_content = soup.get_text()
    cleaned_content = clean_text(text_content)

    # Configure mistune with custom renderer
    markdown = mistune.Markdown(renderer=MyRenderer())

    # Convert cleaned text content to Markdown
    markdown_content = markdown(cleaned_content)

    # Save Markdown content to a file
    filename = url.replace('https://', '').replace('/', '_') + '.md'
    with open(filename, 'w', encoding='utf-8') as file:
        file.write(markdown_content)
        print(f"Markdown content saved to: {filename}")

    # Find links on the page and process them
    links = set()
    for link in soup.find_all('a', href=True):
        link_href = link.get('href')
        links.add(link_href)

        if link_href.startswith('http') and link_href not in visited and depth_dict.get(link_href, 0) < max_depth:
            queue.append(link_href)
            depth_dict[link_href] = depth_dict.get(url, 0) + 1

visited = set()
queue = ['https://innopolis.university/']
depth_dict = {'https://innopolis.university/': 0}
max_depth = 3

while queue:
    current_url = queue.pop(0)
    if current_url not in visited:
        parse_page(current_url)

In [2]:
!cat innopolis.university_.md

Университет Иннополис    

Все медиа
ВКонтактеTelegramYouTube

Университет                                        

Об университете 

Органы управления 

Учредители

Наблюдательный совет

Команда университета 

Организационная структура

Образовательные и научные подразделения

Технологические центры

Преподавательский состав 

Профессорско-преподавательский состав

Вакантные должности ППС

Работа в университете 

Вакансии

Релокация в Иннополис

Кампус 

Кампус

Информация о жилом, учебном и спортивном комплексах, медцентре, питании и досуге на территории города и Университета Иннополис. Ответы на часто задаваемые вопросы

Сведения об образовательной организации 

Сведения об образовательной организации

Информация об образовательной деятельности, приёмной кампании, структуре и органах управления университетом, финансово-хозяйственной деятельности

Сувениры и одежда 

Мерч Университета Иннополис                            

Университет Иннополис

Специализируется на образовании, иссле