# 🐱Wikicat


# Goal and Purpose
Wikicat is a module that helps us extract all the pages of a given category and write them to a json file. You just need to pass a standard language code and also a valid category name and that is all!

## Prerequisites
You may need to install tqdm and wikipediaapi libraries first.
Use codes below to easily install via terminal:

In [1]:
!pip install Wikipedia-API
!pip install tqdm

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


# Libraries
Now it's time to import our wikicat library as well as random and json libraries.
They will help us randomly choose a json object and print it. 


In [2]:
import wikicat
import random
import json

# Funcitons
In this section we will explore each function of this package one by one:
*   set_lang
*   get_category_data
*   create_category_file
*   get_duplicate_elements

## set_lang
Let's start with ***set_lang*** function.

This function is used to set the language of wikipedia.
Check out [language editions of Wikipedia](https://en.wikipedia.org/wiki/List_of_Wikipedias) to find out what code you should use. 

It is also used in ***create_category_file*** function.

This function gets:
    
*   *lang_code*: a standard language code (ex. en: English, fa: Farsi, etc.)

And returns:

*   wikipedia object of the language for further use.

We use *'fa'* code which indicates *Farsi* language for instance. You can use any valid code.

In [10]:
lang_code = 'fa'
fa_wiki = wikicat.set_lang(lang_code)

*fa_wiki* can be used to get single page title, url, summary, full text, page sections, categories, etc.
For more information check on [Wikipedia-API documentation](https://pypi.org/project/Wikipedia-API/).


## get_category_data
this function gets:


*   category_name: name of a valid category in a given language
*   categorymembers: list of members of this category
*   min_delay: (default value: 1s) minimum delay in seconds to wait in between sending requests to wikipedia
*   max_delay: (default value: 5s) maximum delay in seconds to wait in between sending requests to wikipedia
*  level: (default value: 0) level of the page being processed
*  max_level: (default value: 20) maximum number of levels to be traversed

And returns:
*  list of json objects. It may contain duplicate elements. Each page has keys:
    - title: title of the wikipedia page
    - main category: the main category that we aim to extract its data
    - all categories: all categories related to this page
    - content: content of the page (usually it needs to get preprocessed)
    - url: the url of the page

A recurssive implementation has been applied. 
It traverses all subcategories (branch nodes) 
and their pages (leaf nodes) in a depth-first-search manner to get all data related to a given main category.

We use "نثر فارسی" category to extract its data.
As mentioned this function gets 6 arguments which the last 4 of them are optional. If you don't pass these args, the default values will be used.




In [4]:
category_name = "نثر فارسی"
category = fa_wiki.page(f"Category:{category_name}")
category_members = category.categorymembers
min_delay = 1
max_delay = 10
level = 0
max_level = 10
category_data = wikicat.get_category_data(category_name, category_members, min_delay, max_delay, level, max_level)

 88%|████████▊ | 15/17 [01:15<00:11,  5.66s/it]
  0%|          | 0/8 [00:00<?, ?it/s][A
 12%|█▎        | 1/8 [00:06<00:43,  6.17s/it][A
 25%|██▌       | 2/8 [00:16<00:51,  8.53s/it][A
 38%|███▊      | 3/8 [00:21<00:34,  6.99s/it][A
 50%|█████     | 4/8 [00:29<00:29,  7.46s/it][A
 62%|██████▎   | 5/8 [00:33<00:18,  6.28s/it][A
 75%|███████▌  | 6/8 [00:36<00:09,  4.88s/it][A
 88%|████████▊ | 7/8 [00:38<00:04,  4.00s/it][A
100%|██████████| 8/8 [00:42<00:00,  5.30s/it]
 94%|█████████▍| 16/17 [02:08<00:19, 19.78s/it]
  0%|          | 0/49 [00:00<?, ?it/s][A
  2%|▏         | 1/49 [00:06<04:55,  6.16s/it][A
  4%|▍         | 2/49 [00:15<06:13,  7.95s/it][A
  6%|▌         | 3/49 [00:21<05:28,  7.14s/it][A
  8%|▊         | 4/49 [00:27<05:04,  6.77s/it][A
 10%|█         | 5/49 [00:32<04:32,  6.19s/it][A
 12%|█▏        | 6/49 [00:42<05:09,  7.21s/it][A
 14%|█▍        | 7/49 [00:43<03:39,  5.24s/it][A
 16%|█▋        | 8/49 [00:51<04:13,  6.17s/it][A
 18%|█▊        | 9/49 [00:52<03:

Here is a random page selected from category_data:


In [8]:
sample = random.choice(category_data)
parsed = json.loads(sample)
print(json.dumps(parsed, indent = 4,ensure_ascii=False))

{
    "title": "منشآت قائم مقام فراهانی",
    "main category": "نثر فارسی",
    "all categories": [
        "رده:صفحه‌های دارای ارجاع با پارامتر پشتیبانی‌نشده",
        "رده:مقاله‌های خرد ادبیات",
        "رده:نثر فارسی",
        "رده:همه مقاله‌های خرد",
        "رده:کتاب‌های ادبی",
        "رده:کتاب‌های سده ۱۳"
    ],
    "content": "منشآت قائم مقام فراهانی عنوان کتابی است مشتمل بر برخی نوشته‌های قائم مقام فراهانی که به دستور و تدبیر شاگرد او، حاج فرهاد میرزا معتمدالدوله قاجار در سال ۱۲۸۰ گردآوری و در سال ۱۲۹۴ برای نخستین بار چاپ شد. این اثر دارای نثری زیبا و ادبی است و در دوره‌ای منتشر شد که نهضت بازگشت ادبی ظهور کرده بود و نویسندگان و شاعران شیوه اطناب و مصنوع‌نویسی را که از عهد صفوی متداول شده بود، کنار می‌گذاشتند.نوشته‌هایی که در این کتاب آمده، مجموعه‌ای از متن‌ها و نامه‌نگاری‌هایی است که قائم مقام به واسطه شغل دیوانی خود انشاء کرده‌بود. اغلب این انشاها به نثر ساده و مرسل و به زبانی نزدیک به زبان محاوره نوشته شده‌اند و دستمایه‌های طنز نیز در آن‌ها به چشم می‌خورد.منشآت، از جمله آثا

As you see, there is a trade-off between speed and not getting errors caused by abundance of requests. You can set both min and max delay equal to zero to speed up the code, but it is more probable to get some errors.


## create_category_file
This function wrapps the previous ones up into one function and is the most important part of wikicat.The main purpose of this function is to create a json file containing all data of a given category under the name of the category.

Like **get_category_data** function this function gets:
*   category_name: name of a valid category in a given language
*   categorymembers: list of members of this category
*   min_delay: (default value: 1s) minimum delay in seconds to wait in between sending requests to wikipedia
*   max_delay: (default value: 5s) maximum delay in seconds to wait in between sending requests to wikipedia
*  level: (default value: 0) level of the page being processed
*  max_level: (default value: 20) maximum number of levels to be traversed

then it creates the file and returns:
*  list of deduplicated json objects where all its elements are unique.
*  list of all json objects including repetitive ones.

We continue our "نثر فارسی" example. The code below writes all unique data to a file named نثرفارسی.json 
All the arguements passed, are initialized in the previous part.



In [12]:
deduplicated_data, data = wikicat.create_category_file(lang_code, category_name, min_delay, max_delay, max_level)


 88%|████████▊ | 15/17 [01:06<00:08,  4.19s/it]
  0%|          | 0/8 [00:00<?, ?it/s][A
 12%|█▎        | 1/8 [00:07<00:50,  7.17s/it][A
 25%|██▌       | 2/8 [00:15<00:46,  7.76s/it][A
 38%|███▊      | 3/8 [00:17<00:26,  5.21s/it][A
 50%|█████     | 4/8 [00:19<00:16,  4.01s/it][A
 62%|██████▎   | 5/8 [00:29<00:18,  6.23s/it][A
 75%|███████▌  | 6/8 [00:35<00:11,  5.87s/it][A
 88%|████████▊ | 7/8 [00:45<00:07,  7.28s/it][A
100%|██████████| 8/8 [00:47<00:00,  5.93s/it]
 94%|█████████▍| 16/17 [01:55<00:17, 17.55s/it]
  0%|          | 0/49 [00:00<?, ?it/s][A
  2%|▏         | 1/49 [00:07<05:44,  7.17s/it][A
  4%|▍         | 2/49 [00:09<03:19,  4.23s/it][A
  6%|▌         | 3/49 [00:17<04:37,  6.03s/it][A
  8%|▊         | 4/49 [00:27<05:45,  7.68s/it][A
 10%|█         | 5/49 [00:33<05:13,  7.13s/it][A
 12%|█▏        | 6/49 [00:39<04:38,  6.47s/it][A
 14%|█▍        | 7/49 [00:44<04:13,  6.04s/it][A
 16%|█▋        | 8/49 [00:51<04:22,  6.41s/it][A
 18%|█▊        | 9/49 [01:00<04:

Here is a random page selected from deduplicated_data:

In [14]:
sample = random.choice(list(deduplicated_data))
parsed = json.loads(sample)
print(json.dumps(parsed, indent = 4, ensure_ascii=False))

{
    "title": "بدایع‌الوقایع",
    "main category": "نثر فارسی",
    "all categories": [
        "رده:ادبیات",
        "رده:ادبیات ایران",
        "رده:ادبیات فارسی",
        "رده:مقاله‌های خرد ادبیات",
        "رده:مقاله‌هایی که تجمیع ارجاع در آن‌ها ممنوع است",
        "رده:نثر فارسی",
        "رده:همه مقاله‌های خرد"
    ],
    "content": "بدایع‌الوقایع یا وديعةالحقايق اثر زین‌الدین واصفی هروی شاعر روزگار تیموری و صفوی است. این شرح رویدادهایی از گذشته و مطالبی از دیده‌ها و شنیده‌های خود او را شامل می‌شود. واصفی هروی بخشی از قصیده‌های خود در مدح ازبکان را در این کتاب آورده‌است. این کتاب در سال ۱۹۶۱ م در دو جلد در مسکو به‌چاپ رسید. در این کتاب برخی وقایع روزگار سلطان حسین بایقرا و فرزندانش، رویدادهای روزگار شیبک‌خان و برخی وقایع دیگر آمده‌است.\n\nپانویس\nمنابع\nصفا، ذبیح‌الله (۱۳۷۰). تاریخ ادبیات در ایران. ج. پنجم. تهران: فردوس.",
    "url": "https://fa.wikipedia.org/wiki/%D8%A8%D8%AF%D8%A7%DB%8C%D8%B9%E2%80%8C%D8%A7%D9%84%D9%88%D9%82%D8%A7%DB%8C%D8%B9"
}


## get_duplicate_elements
Our last function gets a list and returns duplicate elements.
This function gets:
*  cat_data: any list (in this case pages of a category )

and  returns:
*  duplicate elements of the list (in this case, duplicate pages)

As we said, the second output create_category_file function may contain duplicate values. The code below extracts these repetitive pages.


In [15]:
duplicate_pages = wikicat.get_duplicate_elements(data)

Here is a random page selected from duplicate_pages:

In [16]:
sample = random.choice(duplicate_pages)
parsed = json.loads(sample)
print(json.dumps(parsed, indent = 4,ensure_ascii=False))

{
    "title": "تذکرةالاولیاء",
    "main category": "نثر فارسی",
    "all categories": [
        "رده:ادبیات تصوف",
        "رده:ادبیات فارسی",
        "رده:الگوهای درگاه با درگاه‌های ناموجود",
        "رده:تذکره‌های فارسی",
        "رده:عطار نیشابوری",
        "رده:فرهنگ‌های اعلام",
        "رده:نثر فارسی دوره تکوین",
        "رده:پیوندهای وی‌بک الگوی بایگانی اینترنت",
        "رده:کتاب‌های عرفانی"
    ],
    "content": "تذکرةالاولیاء کتابی عرفانی است به نثر ساده و در قسمت‌هایی مسجع، که در شرح احوال بزرگان اولیاء و مشایخ صوفیه توسط فریدالدین عطار نیشابوری به فارسی نوشته شده‌است.\n\nساختار و درون‌مایهٔ کتاب\nاین کتاب مشتمل است بر مقدمه و ۷۲ باب که هریک به زندگی، حالات، اندیشه‌ها و سخنان یکی از عارفان و مشایخِ تصوف می‌پردازد، و ذکر مکارم اخلاق، مواعظ و سخنان حکمت‌آمیزشان در این کتاب آورده شده‌است.\nنخستین باب به حالات و سخنان جعفر صادق اختصاص یافته‌است، و باب هفتاد و دوم به حسین بن منصور حلاج (متوفی ۳۰۹ هجری قمری). به نظر محمد استعلامی، دست‌نویس‌های معتبر تذکرةالاولیاء تا قرن دهم هجری،