# **Notebook for Automated Parsing of Articles from "Krainiy Sever" Newspaper (Murgin Nuteneut Section)**

This notebook enables parsing articles from the website into text files. The output format is as follows:

Эӆеэмнуӈкинэт танча кывэйыт (*Chukchi headline, typically in uppercase*)


Ыӆыӆгыпӆытку, эӆеръук эмнуӈы нывтыӈаӆӄэнат амра тавтыӈӈа чама амаӆва ваӆьыт мимигти ныгичиӄинэт тэтэйӈэнӈы амра яаӈа. (*Chukchi text content*)

Летней тундры щедрые дары (*Russian headline*)


После схода снега и наступления лета в тундре начинается сбор первой зелени, которую коренные жители издревле используют для приготовления блюд национальной кухни. (*Russian text content - texts aren't always perfectly parallel, sometimes contains metadata*)

In [None]:
# !pip install bs4

In [None]:
from bs4 import BeautifulSoup
import requests

In [None]:
headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
    }

In [None]:
def call_to_page():

    main_page = 'https://www.ks87.ru/108?page='

    for i in range(1, 17):
        current_page = main_page.replace('page=', f'page={i}')

        response = requests.get(current_page, headers=headers, timeout=30)
        response.raise_for_status()
        bs = BeautifulSoup(response.text,"lxml")
        yield bs

In [None]:
def get_all_url_from_page(base_url: str) -> list[str]:
    urls = list()
    for bs in call_to_page():
        for a_tag in bs.find_all('a', 'news', href=True):
            full_url = base_url + a_tag['href']
            urls.append(full_url)
    return [url for url in urls if url.startswith('https://www.ks87.ru/108/')]

In [None]:
base_url = 'https://www.ks87.ru'

links = get_all_url_from_page(base_url)
print(links)

['https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/18344', 'https://www.ks87.ru/108/18213', 'https://www.ks87.ru/108/18048', 'https://www.ks87.ru/108/17912', 'https://www.ks87.ru/108/17784', 'https://www.ks87.ru/108/17630', 'https://www.ks87.ru/108/17313', 'https://www.ks87.ru/108/17169', 'https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/17050', 'https://www.ks87.ru/108/16861', 'https://www.ks87.ru/108/16723', 'https://www.ks87.ru/108/16433', 'https://www.ks87.ru/108/16308', 'https://www.ks87.ru/108/16157', 'https://www.ks87.ru/108/15973', 'https://www.ks87.ru/108/15867', 'https://www.ks87.ru/108/15726', 'https://www.ks87.ru/108/15514', 'https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/15382', 'https://www.ks87.ru/108/15276', 'https://www.ks87.ru/108/15145', 'https://www.ks87.ru/108/14959', 'https://www.ks87.ru/108/14824', 'https://www.ks87.ru/108/14672', 'https://

In [None]:
print(len(links))

186


In [None]:
collected_links = ['https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/18344', 'https://www.ks87.ru/108/18213', 'https://www.ks87.ru/108/18048', 'https://www.ks87.ru/108/17912', 'https://www.ks87.ru/108/17784', 'https://www.ks87.ru/108/17630', 'https://www.ks87.ru/108/17313', 'https://www.ks87.ru/108/17169', 'https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/17050', 'https://www.ks87.ru/108/16861', 'https://www.ks87.ru/108/16723', 'https://www.ks87.ru/108/16433', 'https://www.ks87.ru/108/16308', 'https://www.ks87.ru/108/16157', 'https://www.ks87.ru/108/15973', 'https://www.ks87.ru/108/15867', 'https://www.ks87.ru/108/15726', 'https://www.ks87.ru/108/15514', 'https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/15382', 'https://www.ks87.ru/108/15276', 'https://www.ks87.ru/108/15145', 'https://www.ks87.ru/108/14959', 'https://www.ks87.ru/108/14824', 'https://www.ks87.ru/108/14672', 'https://www.ks87.ru/108/14553', 'https://www.ks87.ru/108/14391', 'https://www.ks87.ru/108/14390', 'https://www.ks87.ru/108/14263', 'https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/14262', 'https://www.ks87.ru/108/14138', 'https://www.ks87.ru/108/13976', 'https://www.ks87.ru/108/13871', 'https://www.ks87.ru/108/13705', 'https://www.ks87.ru/108/13639', 'https://www.ks87.ru/108/13461', 'https://www.ks87.ru/108/13460', 'https://www.ks87.ru/108/13343', 'https://www.ks87.ru/108/13190', 'https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/13191', 'https://www.ks87.ru/108/13074', 'https://www.ks87.ru/108/12845', 'https://www.ks87.ru/108/12749', 'https://www.ks87.ru/108/12532', 'https://www.ks87.ru/108/12104', 'https://www.ks87.ru/108/12103', 'https://www.ks87.ru/108/12102', 'https://www.ks87.ru/108/12021', 'https://www.ks87.ru/108/11861', 'https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/11766', 'https://www.ks87.ru/108/11765', 'https://www.ks87.ru/108/11764', 'https://www.ks87.ru/108/11763', 'https://www.ks87.ru/108/11676', 'https://www.ks87.ru/108/11677', 'https://www.ks87.ru/108/11679', 'https://www.ks87.ru/108/11678', 'https://www.ks87.ru/108/14458', 'https://www.ks87.ru/108/11446', 'https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/11447', 'https://www.ks87.ru/108/11336', 'https://www.ks87.ru/108/11335', 'https://www.ks87.ru/108/11334', 'https://www.ks87.ru/108/11332', 'https://www.ks87.ru/108/11150', 'https://www.ks87.ru/108/11151', 'https://www.ks87.ru/108/11040', 'https://www.ks87.ru/108/11039', 'https://www.ks87.ru/108/11038', 'https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/10934', 'https://www.ks87.ru/108/10932', 'https://www.ks87.ru/108/10931', 'https://www.ks87.ru/108/10930', 'https://www.ks87.ru/108/10827', 'https://www.ks87.ru/108/10714', 'https://www.ks87.ru/108/10549', 'https://www.ks87.ru/108/10548', 'https://www.ks87.ru/108/10429', 'https://www.ks87.ru/108/10428', 'https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/10427', 'https://www.ks87.ru/108/10426', 'https://www.ks87.ru/108/10330', 'https://www.ks87.ru/108/10329', 'https://www.ks87.ru/108/10328', 'https://www.ks87.ru/108/10327', 'https://www.ks87.ru/108/10326', 'https://www.ks87.ru/108/10325', 'https://www.ks87.ru/108/9721', 'https://www.ks87.ru/108/9403', 'https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/9402', 'https://www.ks87.ru/108/9175', 'https://www.ks87.ru/108/9174', 'https://www.ks87.ru/108/9037', 'https://www.ks87.ru/108/8890', 'https://www.ks87.ru/108/8889', 'https://www.ks87.ru/108/8740', 'https://www.ks87.ru/108/8743', 'https://www.ks87.ru/108/8742', 'https://www.ks87.ru/108/8741', 'https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/8598', 'https://www.ks87.ru/108/8597', 'https://www.ks87.ru/108/8596', 'https://www.ks87.ru/108/8093', 'https://www.ks87.ru/108/8094', 'https://www.ks87.ru/108/7927', 'https://www.ks87.ru/108/7937', 'https://www.ks87.ru/108/7794', 'https://www.ks87.ru/108/7795', 'https://www.ks87.ru/108/7709', 'https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/7546', 'https://www.ks87.ru/108/7469', 'https://www.ks87.ru/108/7301', 'https://www.ks87.ru/108/7300', 'https://www.ks87.ru/108/7292', 'https://www.ks87.ru/108/7165', 'https://www.ks87.ru/108/7164', 'https://www.ks87.ru/108/7045', 'https://www.ks87.ru/108/7044', 'https://www.ks87.ru/108/7043', 'https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/6923', 'https://www.ks87.ru/108/6922', 'https://www.ks87.ru/108/6921', 'https://www.ks87.ru/108/6920', 'https://www.ks87.ru/108/6795', 'https://www.ks87.ru/108/6794', 'https://www.ks87.ru/108/6587', 'https://www.ks87.ru/108/6436', 'https://www.ks87.ru/108/6274', 'https://www.ks87.ru/108/6273', 'https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/6132', 'https://www.ks87.ru/108/6019', 'https://www.ks87.ru/108/6020', 'https://www.ks87.ru/108/5816', 'https://www.ks87.ru/108/5815', 'https://www.ks87.ru/108/5723', 'https://www.ks87.ru/108/5722', 'https://www.ks87.ru/108/5542', 'https://www.ks87.ru/108/5543', 'https://www.ks87.ru/108/5472', 'https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/5333', 'https://www.ks87.ru/108/5262', 'https://www.ks87.ru/108/5072', 'https://www.ks87.ru/108/4834', 'https://www.ks87.ru/108/4691', 'https://www.ks87.ru/108/4604', 'https://www.ks87.ru/108/4513', 'https://www.ks87.ru/108/4445', 'https://www.ks87.ru/108/4446', 'https://www.ks87.ru/108/3523', 'https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487', 'https://www.ks87.ru/108/3301', 'https://www.ks87.ru/108/3096', 'https://www.ks87.ru/108/2998', 'https://www.ks87.ru/108/2950', 'https://www.ks87.ru/108/18679', 'https://www.ks87.ru/108/18487']

Extracting text:

In [None]:
def get_text_from_page(urls: list[str]):
    for url in urls:
        article = """"""
        response = requests.get(url, headers=headers, timeout=60)
        response.encoding = 'utf-8'
        soup = BeautifulSoup(response.text, 'lxml')
        main = soup.find('div', class_ = 'block')
        paragraph = main.find_all(name=['p', 'h1', 'h2'])
        for art in paragraph:
            paragraph_text = art.text
            article += paragraph_text
    # return articles

        save_article_to_file(url, article)

In [None]:
import time
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry

In [None]:
# Configuring session with retry logic
session = requests.Session()
retries = Retry(
    total=5,                # Max retry attempts
    backoff_factor=5,       # Delay between attempts (5, 10, 15 sec.)
    status_forcelist=[500, 502, 503, 504, 408]  # Retry on these status codes
)
session.mount("https://", HTTPAdapter(max_retries=retries))

def get_text_from_page_2(urls: list[str]):
    for url in urls:
        article = """"""
        try:
            response = session.get(url, headers=headers, timeout=60)
            response.raise_for_status()  # Check response status (raises error for 4xx/5xx)
            response.encoding = 'utf-8'

            soup = BeautifulSoup(response.text, 'lxml')
            main = soup.find('div', class_='block')

            if not main:
                print(f"Content not found on page: {url}")
                continue  # Skip iteration if target block is missing

            paragraphs = main.find_all(name=['p', 'h1', 'h2'])
            for art in paragraphs:
                article += art.text + "\n"

            # Saving article
            save_article_to_file(url, article)
            print(f"Successfully saved: {url}")

        except requests.exceptions.Timeout:
            print(f"Connection timeout for {url}")
        except requests.exceptions.RequestException as e:
            print(f"Error processing {url}: {e}")

        time.sleep(5)  # Delay before next request

Archiving function:

In [None]:
import os

In [None]:
def save_article_to_file(url, article):

    # Extracting information from URL
    article_id = url.split('/')[-1]  # "1209789" - page/article number

    # Creating filename
    filename = f"chukot_article_{article_id}.txt"


    folder = 'C:\\Users\\eliza\\PycharmProjects\\course_project\\chukot_articles'
    filepath = os.path.join(folder, filename)  # File path


    # Saving text to file
    with open(filepath, 'w+', encoding='utf8') as outf:
        outf.write(article)


    # return filename
    return filepath

Saving to archive:

In [None]:
import zipfile

In [None]:
zip_filename = "scraped.zip"
zip = zipfile.ZipFile(zip_filename, "w", zipfile.ZIP_DEFLATED)
zip.write("836239_ru.txt")
zip.close()

In [None]:
zip_filename = "scraped.zip"

def file_archivizer(filename):
    zip = zipfile.ZipFile(zip_filename, "w", zipfile.ZIP_DEFLATED)
    zip.write(filename)
    zip.close()

Execution:

In [None]:
get_text_from_page(links)

ConnectTimeout: HTTPSConnectionPool(host='www.ks87.ru', port=443): Max retries exceeded with url: /108/17912 (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x000001607919C0E0>, 'Connection to www.ks87.ru timed out. (connect timeout=30)'))

In [None]:
get_text_from_page_2(links)

In [None]:
get_text_from_page(['https://www.ks87.ru/108/18679'])

In [None]:
file_archivizer('chukot_article_18679.txt')