In [2]:
import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

# Define the base URL (with the page number to be appended)


# Define the base URL (with the page number to be appended)
base_url = "https://scientificrussia.ru/interviews/"

# Folder to save the articles
output_folder = "scientific_russia_articles"

# Function to fetch article content
def fetch_article_content(article_url):
    try:
        response = requests.get(article_url)
        if response.status_code == 200:
            soup = BeautifulSoup(response.content, 'html.parser')
            # Assuming the article content is inside <p> tags
            paragraphs = soup.find_all('p')
            article_text = '\n'.join([para.get_text() for para in paragraphs])
            return article_text
        else:
            print(f"Failed to fetch article: {article_url} (Status code: {response.status_code})")
            return None
    except Exception as e:
        print(f"Error occurred while fetching article: {str(e)}")
        return None

# Function to save article text to a file
def save_article(title, content, folder):
    if not os.path.exists(folder):
        os.makedirs(folder)
    
    # Clean the title for safe file naming
    safe_title = title.replace("/", "_").replace("\\", "_").replace(":", "_").strip()
    file_path = os.path.join(folder, f"{safe_title}.txt")
    
    with open(file_path, 'w', encoding='utf-8') as f:
        f.write(content)
    
    print(f"Saved article: {title}")

# Function to scrape articles from a given page
def scrape_articles_from_page(page_num, folder):
    page_url = f"{base_url}{page_num}"  # Using the specific page number in the URL
    try:
        response = requests.get(page_url)
        if response.status_code == 200:
            soup = BeautifulSoup(response.content, 'html.parser')
            # Find all divs with class 'list-item'
            articles = soup.find_all('div', class_='list-item')
            for article in articles:
                title_tag = article.find('div', class_='title').find('a')
                if title_tag:
                    article_title = title_tag.get_text(strip=True)
                    article_url = urljoin(base_url, title_tag['href'])
                    
                    print(f"Fetching article: {article_title}")
                    
                    # Fetch the article content
                    article_content = fetch_article_content(article_url)
                    if article_content:
                        # Save the article content to a file
                        save_article(article_title, article_content, folder)
        else:
            print(f"Failed to access page: {page_url} (Status code: {response.status_code})")
    except Exception as e:
        print(f"Error occurred while scraping page {page_num}: {str(e)}")

# Main script execution
if __name__ == "__main__":
    # Scrape articles from page 1191 down to 1
    for page_num in range(55, 0, -1):  # Countdown from 1191 to 1
        print(f"Scraping page {page_num}")
        scrape_articles_from_page(page_num, output_folder)


Scraping page 55
Fetching article: Целый год в Антарктиде: как это было? Интервью с сейсмологом Единой геофизической службы РАН Айнуром Галиным
Error occurred while scraping page 55: [Errno 22] Invalid argument: 'scientific_russia_articles\\Целый год в Антарктиде_ как это было? Интервью с сейсмологом Единой геофизической службы РАН Айнуром Галиным.txt'
Scraping page 54
Fetching article: Никто не проживет вашу жизнь за вас. Главный гериатр Минздрава России Ольга Ткачева о продлении здоровой жизни
Saved article: Никто не проживет вашу жизнь за вас. Главный гериатр Минздрава России Ольга Ткачева о продлении здоровой жизни
Fetching article: Восстановление лица по черепу: метод Герасимова сегодня. Интервью с антропологом Елизаветой Веселовской из ИЭА РАН
Saved article: Восстановление лица по черепу: метод Герасимова сегодня. Интервью с антропологом Елизаветой Веселовской из ИЭА РАН
Fetching article: Запад и Восток: насколько они разные? Интервью со специалистом в области истории политически