# Retrieving Titles from Wikipedia Dump Data

In [1]:
from lxml import etree

In [2]:
import re

---

In [3]:
def get_titles(fpath):
    tree = etree.parse(fpath)

    list_titles = []
    for elm in tree.xpath("//*/@title"):
        title = str(elm)
        if not re.search('[0-9a-zA-Z]', title):
            list_titles.append(title)

    return(list_titles)

## My

In [4]:
list_my = get_titles("./mywiki-20170901-pages-meta-current.xml")
len(list_my)

5474

In [5]:
list_my[:5]

['ဗဟိုစာမျက်နှာ',
 'မြန်မာဘာသာစကား',
 'လေကြောင်း နှင့် အာကာသပညာ',
 'ဆင်ဖြူရှင်မင်း',
 'သန်းထွန်း (ဒေါက်တာ)']

In [6]:
with open("../my.txt", "w") as f:
    print("\n".join(list_my), file=f)

In [7]:
!head ../my.txt

ဗဟိုစာမျက်နှာ
မြန်မာဘာသာစကား
လေကြောင်း နှင့် အာကာသပညာ
ဆင်ဖြူရှင်မင်း
သန်းထွန်း (ဒေါက်တာ)
ကိုရမ်ကျမ်း
နု၊ ဦး
သန်းရွှေ၊ (ဗိုလ်ချုပ်မှူးကြီး)
အမျိုးသား ဒီမိုကရေစီ အဖွဲ့ချုပ်
မြန်မာနိုင်ငံ၏ စီးပွားရေး


## Ka

In [8]:
list_ka = get_titles("./kawiki-20170901-pages-meta-current.xml")
len(list_ka)

39198

In [9]:
list_ka[:5]

['საქართველოს სახელმწიფო ჰიმნი',
 'თარგი:ვიკიციტატა',
 'თარგი:ესკიზი',
 'ვიკიპედია:პასუხისმგებლობის უარყოფა',
 'გაეროს განვითარების პროგრამა']

In [10]:
with open("../ka.txt", "w") as f:
    print("\n".join(list_ka), file=f)

In [11]:
!head ../ka.txt

საქართველოს სახელმწიფო ჰიმნი
თარგი:ვიკიციტატა
თარგი:ესკიზი
ვიკიპედია:პასუხისმგებლობის უარყოფა
გაეროს განვითარების პროგრამა
ტყაშმაფა
ქართული დამწერლობა
თარგი:აფხაზეთის ადმინისტრაციული დაყოფა
განხილვა:ედუარდ შევარდნაძე
ლეონარდო და ვინჩი


## My/Ka

In [14]:
with open("../myka.tsv", "w") as f:
    for i, (lang, title) in enumerate( [("my", t) for t in list_my] + [("ka", t) for t in list_ka], start=1 ):
        print("{}\t{}\t{}".format(i, lang, title), file=f)

In [17]:
!head ../myka.tsv

1	my	ဗဟိုစာမျက်နှာ
2	my	မြန်မာဘာသာစကား
3	my	လေကြောင်း နှင့် အာကာသပညာ
4	my	ဆင်ဖြူရှင်မင်း
5	my	သန်းထွန်း (ဒေါက်တာ)
6	my	ကိုရမ်ကျမ်း
7	my	နု၊ ဦး
8	my	သန်းရွှေ၊ (ဗိုလ်ချုပ်မှူးကြီး)
9	my	အမျိုးသား ဒီမိုကရေစီ အဖွဲ့ချုပ်
10	my	မြန်မာနိုင်ငံ၏ စီးပွားရေး


In [16]:
!tail ../myka.tsv

44663	ka	ჯ. რ. რ. ტოლკინი: მხატვარი და ილუსტრატორი
44664	ka	ჯ. რ. რ. ტოლკინის თანამგზავრი და მეგზური
44665	ka	ჯ. რ. რ. ტოლკინი: ბიოგრაფია
44666	ka	შუაველი
44667	ka	თარგი:დორტმუნდის ბორუსიას შემადგენლობა
44668	ka	აინურნი
44669	ka	განხილვა:აინურნი
44670	ka	თარგი:აინურნი
44671	ka	ვიკიპედია:ვიკიპროექტი:ჩრდილოეთი კორეა
44672	ka	თარგი:ვოლფსბურგის შემადგენლობა
