In [1]:
import os
from abc import ABC, abstractmethod
import pathlib

from wikipediaapi import Wikipedia, WikipediaPage

In [2]:
STATE = 'چهارمحال و بختیاری'
DATA_PATH = os.path.join(
    pathlib.Path('../'),
    'chaharmahal-o-bakhtiari',
    'data',
)

In [3]:
os.makedirs(DATA_PATH, exist_ok=True)

In [4]:
wiki = Wikipedia(user_agent='Mozilla', language='fa')

In [5]:
page = wiki.page(STATE)

In [6]:
with open(os.path.join(DATA_PATH, page.title), 'w+') as f:
    f.write(page.text)

In [7]:
class CrawlingLogic(ABC):

    @abstractmethod
    def do_crawling(self, title: str, page: WikipediaPage) -> bool:
        raise NotImplementedError()

In [8]:
class PageContainsKeyword(CrawlingLogic):


    def __init__(self, keyword: str):
        super().__init__()
        self.keyword = keyword

    def do_crawling(self, title, page):
        return self.keyword in page.text

In [9]:
class LinkContainsKeyword(CrawlingLogic):


    def __init__(self, keyword: str):
        super().__init__()
        self.keyword = keyword

    def do_crawling(self, title, page):
        return self.keyword in title

In [10]:
class CrawlAll(CrawlingLogic):

    def do_crawling(self, title, page):
        return True

In [11]:
def wiki_crawler(
    page: WikipediaPage,
    base_path: str,
    crawling_logic: CrawlingLogic,
):
    """
        checks all references in the `page` and crawls references containing keyword
    """
    for title, info in page.links.items():
        path = os.path.join(base_path, title)
        if os.path.exists(path):
            print(title, 'already exists')
            continue
        try:
            if crawling_logic.do_crawling(title, info):
                with open(path, 'w+') as f:
                    f.write(info.text)
            else:
                print('irrelevant page:', title)
        except Exception as e:
            print(e)


In [12]:
wiki_crawler(
    page=page,
    base_path=DATA_PATH,
    crawling_logic=PageContainsKeyword(STATE)
)

irrelevant page: اتاق آئینه شهرکرد
irrelevant page: ارمنیان
irrelevant page: استان آذربایجان شرقی
irrelevant page: استان آذربایجان غربی
irrelevant page: استان اردبیل
irrelevant page: استان البرز
irrelevant page: استان ایلام
irrelevant page: استان تهران
irrelevant page: استان خراسان جنوبی
irrelevant page: استان خراسان رضوی
irrelevant page: استان خراسان شمالی
irrelevant page: استان زنجان
irrelevant page: استان سمنان
irrelevant page: استان سیستان و بلوچستان
irrelevant page: استان فارس
irrelevant page: استان قزوین
irrelevant page: استان قم
irrelevant page: استان مازندران
irrelevant page: استان مرکزی
irrelevant page: استان هرمزگان
irrelevant page: استان همدان
irrelevant page: استان کردستان
irrelevant page: استان کرمانشاه
irrelevant page: استان گلستان
irrelevant page: استان گیلان
irrelevant page: استان‌های ایران
irrelevant page: استبداد صغیر
irrelevant page: اطلس زبان‌های ایران
irrelevant page: امامزاده سیدمحمد بارده
irrelevant page: امامزادگان حلیمه و حکیمه خاتون
irrelevant page: امیدآباد (