# Download Tamil Wiki Dump and Extract all articles to local disk

This is first of the series of notebooks for language model creation.

We parse the daily wikidump instead of crawling the website of wikipedia. 
If you only need a small subset of article, you can choose to use the crawler available at
https://github.com/vanangamudi/newspaper-crawler-scripts/blob/master/tamil/crawler-tawiki.py (Vanangamudi)

As of March 31, 2019, the Tamil Wikipedia has more than 120,000 articles - to be precise: 127381 articles.
This notebook uses wikiextractor module to download the xml dump and extract these articles.
It then saves only the plain text extracts, in 447 files under directories named AA, AB, AC, AD, AE,
each folder containing 100 files.

Each file itself is roughly 1MB large and holds upto 200 or 300 articles - each article having a doc id and url information.

## Step 1. Download Tamil Wiki Dump

In [1]:
!wget http://dumps.wikimedia.org/tawiki/latest/tawiki-latest-pages-articles.xml.bz2

URL transformed to HTTPS due to an HSTS policy
--2019-04-03 16:10:21--  https://dumps.wikimedia.org/tawiki/latest/tawiki-latest-pages-articles.xml.bz2
Resolving dumps.wikimedia.org (dumps.wikimedia.org)... 208.80.155.106, 2620:0:861:4:208:80:155:106
Connecting to dumps.wikimedia.org (dumps.wikimedia.org)|208.80.155.106|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 142062878 (135M) [application/octet-stream]
Saving to: ‘tawiki-latest-pages-articles.xml.bz2’


2019-04-03 16:11:30 (1.96 MB/s) - ‘tawiki-latest-pages-articles.xml.bz2’ saved [142062878/142062878]



# Step 2. Unzip it

In [2]:
!bunzip2 tawiki-latest-pages-articles.xml.bz2

In [3]:
!ls -ltr

total 1168352
-rw-r--r-- 1 ravi_annaswamy ravi_annaswamy 1196373931 Mar 21 08:46 tawiki-latest-pages-articles.xml
-rw-r--r-- 1 ravi_annaswamy ravi_annaswamy      12279 Apr  3 16:12 Tamil Wikipedia Downloader and Article Extractor.ipynb


# Step 3. Get wikiextract software from github

In [4]:
!git clone https://github.com/attardi/wikiextractor.git

Cloning into 'wikiextractor'...
remote: Enumerating objects: 523, done.[K
remote: Total 523 (delta 0), reused 0 (delta 0), pack-reused 523[K
Receiving objects: 100% (523/523), 454.22 KiB | 0 bytes/s, done.
Resolving deltas: 100% (297/297), done.


In [5]:
!ls

Tamil Wikipedia Downloader and Article Extractor.ipynb	wikiextractor
tawiki-latest-pages-articles.xml


# Step 4. Run extractor on the xml dump quietly and ignoring embedded tables and other templates in wiki articles.

In [6]:
!python ./wikiextractor/WikiExtractor.py tawiki-latest-pages-articles.xml --no-templates -q

  re.S | re.U)
  re.X | re.S | re.U)


In [7]:
!ls

Tamil Wikipedia Downloader and Article Extractor.ipynb	text
tawiki-latest-pages-articles.xml			wikiextractor


# Step 5. Get a list of all article collection files

In [8]:
import glob
flist=glob.glob('text/*/*')

In [9]:
len(flist)

447

In [10]:
flist[:2]

['text/AE/wiki_12', 'text/AE/wiki_17']

### We have one issue. Wikiextractor has named the files as wiki_00..wiki_99 is each of the 5 folders. We would like to rename the files with prefix of the directory to make them all unique.
  

In [11]:
def future_name(fn):
  a,b,c=fn.split('/')
  return '/'.join([a,b,b+'_'+c+'.txt'])
future_name(flist[0])

'text/AE/AE_wiki_12.txt'

In [12]:
import os
for f in flist:
  os.rename(f,future_name(f))

In [13]:
flist2=glob.glob('text/*/*')
len(flist2),flist2[:2]

(447, ['text/AE/AE_wiki_46.txt', 'text/AE/AE_wiki_34.txt'])

# Step 6. View first few sentences of text of the first file

In [14]:
with open(flist2[0], encoding='utf-8') as f:
    text=f.read()
print(text[:1000])

<doc id="438264" url="https://ta.wikipedia.org/wiki?curid=438264" title="இந்திய திரைப்படம் நடிகைகள் பட்டியல்">
இந்திய திரைப்படம் நடிகைகள் பட்டியல்

அ

அபிராமி

அதாசர்மா

அதிதிசர்மா

அதிதிகோவிட்ரிக்கர்

அதிதிராவ் ஹைடரி

அதீதிகுப்தா

அஹானாகிருஷ்ணா

அந்த்ரிடாரே

அகன்ஸாஜூநிஜா

அக்ஸா பர்தசனி

அக்ஸரா கெளதா

அக்ஸரா ஹாசன்

அக்ஸரா மேனன்

அமலா

அமலா பால்

அம்பிகா

அமீத்தா

அமீஸா பாட்டீல்

அமூல்யா

அம்ரிதா அரோரா

அம்ரிதா ப்ரகாஷ்

அம்ரிதா ராவ்

அம்ரிதா சிங்

அம்ருதா காண்வில்கர்

அமிரா டாஸ்டர்

அனைக்கா சொட்டி

அனன்யா

அனஸ்வரா குமார்

அனிதா ஹசநந்தனி

அனிதா குஹா

அனிதா ராஜ்

அஞ்ஜலா ஷாவேரி

அஞ்ஜலி 

அஞ்ஜலி தேவி

அஞ்ஜலி சுதாகர்

அஞ்ஜனா பெளமிக்

அஞ்ஜனா ஸுகானி

அஞ்ஜு மஹேந்த்ரா

அன்கிதா லோகன்டே

அன்கிதா ஸர்மா

அன் அகஸ்டின்

அன்ஸிபா ஹாசன்

அன்தரா மலி

அனு அகர்வால்

அனு பிரபாகர்

அனு சித்ரா

அனுபமா பரமேஸ்வரன்

அனுபமா வர்மா

அனுராதா மேதா

அனுஷா டன்டெகர்

அனுஷ்கா சர்மா

அனுஷ்கா ஸெட்டி

அனுயா பக்வத்

அபர்ஜிதா மேஹட்டி

அபர்னா பாஜ்பாய்

அபர்னா பாலமுரளி

அபர்னா சென்

அர்ச்சனா

அர்ச்சனா ஜோஸ்

அர்ச்சனா பூரன் சிங்



# Step 7. Extract the titles of all articles in the first file.

In [15]:
import re

example_title ='<doc id="12" url="https://ta.wikipedia.org/wiki?curid=12" title="கட்டிடக்கலை">'
pattern = 'title="(.*?)">'
with open(flist2[0], encoding='utf-8') as f:
    text=f.read()
    titles=re.findall(pattern, text)
    print(len(titles), 'articles found')


26 articles found


# Step 8. Let us count all the articles we have downloaded across all the files.

In [16]:
pattern = 'title="(.*?)">'
def get_article_count(fname):
    with open(fname, encoding='utf-8') as f:
        text=f.read()
        titles=re.findall(pattern, text)
        return len(titles)
print(sum([get_article_count(f) for f in flist2]))

127381


### Wow, that is 127000+ articles! In Indian count 1.2 lakhs! Let us thank the great community of wiki writers that have done this wonder job of creating such a wide variety of valuable articles in Tamil. Let us each also try to add more articles on subjects we care about.



# Step 9. Let us create a tiny subset of the tamil wiki for quick testing purpose. Let us create a set of 12000 articles.

## First let us rename the current text archive as tawiki_full

In [17]:
!mv text tawiki_large

In [18]:
flist3 = glob.glob('tawiki_large/*/*')
flist3[0], len(flist3)

('tawiki_large/AE/AE_wiki_46.txt', 447)

In [19]:
import random
random.shuffle(flist3)
flist3[:2]

['tawiki_large/AB/AB_wiki_17.txt', 'tawiki_large/AC/AC_wiki_73.txt']

In [20]:
flist_small = flist3[:40]

In [21]:
!mkdir tawiki_small

In [22]:
for file in flist_small:
    with open(file, encoding='utf-8') as f:
        text = f.read()
        name=file.split('/')
        newname=name[0].replace('large', 'small')+'/'+name[2]
    with open(newname, "w") as text_file:
        text_file.write(text)

# Step 10. How many articles are on in this small sample?

In [23]:
pattern = 'title="(.*?)">'
def get_article_count(fname):
    with open(fname, encoding='utf-8') as f:
        text=f.read()
        titles=re.findall(pattern, text)
        return len(titles)
    
flist_small = glob.glob('tawiki_small/*')
print(sum([get_article_count(f) for f in flist_small]))

11037


# Done!