<a href="https://colab.research.google.com/github/iued-uni-heidelberg/corpusdev/blob/main/s101wikipedia_corpus.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# dowloading a wikipedia corpus
- for each language, 
- creating frequency lists
- bootstrapping the internet corpus (e.g., via SketchEngine)

## wiki extractor - Apertium
- the script which processes wiki dumps
- documentation link: https://wiki.apertium.org/wiki/Wikipedia_Extractor


In [None]:
!wget https://raw.githubusercontent.com/apertium/WikiExtractor/master/WikiExtractor.py

In [None]:
# python3 WikiExtractor.py --infn xyzwiki-20210620-pages-articles.xml.bz2 --compress
!python3 WikiExtractor.py

### creating a frequency dictionary from corpus
- tokenizing
- printing frq dictionary
- example in https://stackabuse.com/python-for-nlp-creating-bag-of-words-model-from-scratch/


In [6]:
import nltk
nltk.download('punkt')
import re, sys, os

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [7]:
# using example in
# https://stackabuse.com/python-for-nlp-creating-bag-of-words-model-from-scratch/



def normalizeSent(SentIn):
    SentIn = SentIn.lower()
    SentIn = re.sub(r'\W',' ', SentIn)
    SentIn = re.sub(r'\s+',' ', SentIn)
    return SentIn


def printFrqDict(frqdict, FOut = 'output-frq-dict.txt'):
    if not frqdict:
        print('frqdict not found')
        return

    for k, v in sorted(frqdict.items(), key=lambda item: item[1], reverse=True):
        FOut.write(f'{k}\t{v}\n')
    

def corp2frq(FIn = None):
    wordfreq = {}

    if not FIn: 
        print('input file not specified')
        return
    j = 0
    for SLine in FIn:
        j+= 1
        # print(str(j))
        if j%50000 == 0: print(str(j))

        LLineTok = nltk.sent_tokenize(SLine)
        for i in range(len(LLineTok)):
            LLineTok[i] = normalizeSent(LLineTok[i])


        for sentence in LLineTok:
            tokens = nltk.word_tokenize(sentence)
            for token in tokens:
                if token not in wordfreq.keys():
                    wordfreq[token] = 1
                else:
                    wordfreq[token] += 1

    return wordfreq





## Georgian

In [None]:
# sample
# wget https://dumps.wikimedia.org/xyzwiki/20210620/xyzwiki-20210620-pages-articles.xml.bz2
# https://mirror.accum.se/mirror/wikimedia.org/dumps/kawiki/20221101/kawiki-20221101-pages-articles.xml.bz2
!wget https://mirror.accum.se/mirror/wikimedia.org/dumps/kawiki/20221101/kawiki-20221101-pages-articles.xml.bz2

In [None]:
!python3 WikiExtractor.py --infn kawiki-20221101-pages-articles.xml.bz2

In [48]:
FIn = open('/content/kawiki-20221101-pages-articles.txt', 'r')

In [49]:
FOut = open('/content/kawiki-20221101-frq-dict.txt', 'w')

In [None]:
wordfreq = corp2frq(FIn)

In [51]:
printFrqDict(wordfreq, FOut)

In [52]:
!wc kawiki-20221101-frq-dict.txt

 1071610  2143218 31160888 kawiki-20221101-frq-dict.txt


In [None]:
!head -n 20 kawiki-20221101-frq-dict.txt

In [55]:
!gzip kawiki-20221101-pages-articles.txt

In [56]:
!gzip kawiki-20221101-frq-dict.txt

In [8]:
!wc kawiki-20221101-pages-articles.txt

  1072294  23896746 521002360 kawiki-20221101-pages-articles.txt


In [None]:
!head -n 10 kawiki-20221101-pages-articles.txt

In [5]:
!mv wiki.txt kawiki-20221101-pages-articles.txt

In [None]:
!awk '$2 >=5 {print $0}' <kawiki-20221101-frq-dict.txt >kawiki-20221101-frq-dict-gt5.txt

## Armenian

In [None]:
!wget https://mirror.accum.se/mirror/wikimedia.org/dumps/hywiki/20221101/hywiki-20221101-pages-articles.xml.bz2

In [None]:
!python3 WikiExtractor.py --infn hywiki-20221101-pages-articles.xml.bz2

In [5]:
!mv wiki.txt hywiki-20221101-pages-articles.txt

In [9]:
!wc hywiki-20221101-pages-articles.txt

  2446411  56341167 803098410 hywiki-20221101-pages-articles.txt


In [None]:
FIn = open('/content/hywiki-20221101-pages-articles.txt', 'r')
FOut = open('/content/hywiki-20221101-frq-dict.txt', 'w')
wordfreq = corp2frq(FIn)
printFrqDict(wordfreq, FOut)


In [10]:
!wc hywiki-20221101-frq-dict.txt

 1653538  3307076 33397739 hywiki-20221101-frq-dict.txt


In [12]:
!gzip hywiki-20221101-pages-articles.txt

In [13]:
!gzip hywiki-20221101-frq-dict.txt

In [14]:
!gunzip hywiki-20221101-frq-dict.txt.gz

In [15]:
!awk '$2 >=5 {print $0}' <hywiki-20221101-frq-dict.txt >hywiki-20221101-frq-dict-gt5.txt

## Ukrainian
https://mirror.accum.se/mirror/wikimedia.org/dumps/ukwiki/20221101/ukwiki-20221101-pages-articles.xml.bz2


In [16]:
!wget https://mirror.accum.se/mirror/wikimedia.org/dumps/ukwiki/20221101/ukwiki-20221101-pages-articles.xml.bz2

--2022-11-20 20:35:46--  https://mirror.accum.se/mirror/wikimedia.org/dumps/ukwiki/20221101/ukwiki-20221101-pages-articles.xml.bz2
Resolving mirror.accum.se (mirror.accum.se)... 194.71.11.165, 194.71.11.173, 194.71.11.163, ...
Connecting to mirror.accum.se (mirror.accum.se)|194.71.11.165|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://laotzu.ftp.acc.umu.se/mirror/wikimedia.org/dumps/ukwiki/20221101/ukwiki-20221101-pages-articles.xml.bz2 [following]
--2022-11-20 20:35:47--  https://laotzu.ftp.acc.umu.se/mirror/wikimedia.org/dumps/ukwiki/20221101/ukwiki-20221101-pages-articles.xml.bz2
Resolving laotzu.ftp.acc.umu.se (laotzu.ftp.acc.umu.se)... 194.71.11.166, 2001:6b0:19::166
Connecting to laotzu.ftp.acc.umu.se (laotzu.ftp.acc.umu.se)|194.71.11.166|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1972921737 (1.8G) [application/x-bzip2]
Saving to: ‘ukwiki-20221101-pages-articles.xml.bz2’


2022-11-20 20:37:34 (17.9 MB/s) - ‘ukw

In [None]:
!python3 WikiExtractor.py --infn ukwiki-20221101-pages-articles.xml.bz2

4713225 Джастіс Вінслоу
4713227 Ilex opaca
4713232 Ilex pedunculosa
4713239 Олекса Берест
4713241 Черепухін Семен Іванович
4713242 Ilex pubescens
4713244 Каган Мойсей
4713249 Мечеть Омара (Єрусалим)
4713252 Тамір Коен
4713255 Дослідна станція тютюнництва
4713258 Ткаченко Уляна Юріївна
4713286 Соколовський Андрій Андрійович
4713287 Гіпотеза Піллаї
4713289 Анна Сибілла Шварцбург-Рудольштадтська
4713290 Бікмурзін Олександр Олександрович
4713294 Марчук Валентин Мефодійович
4713301 Горбун Сергій Вікторович
4713306 Дацків Михайло Ярославович
4713308 Чути гімн
4713310 Stumpffia lynnae
4713314 Софія Шварцбург-Рудольштадтська
4713318 Polypogon gryphalis
4713322 Дельцов Леонід Олександрович
4713328 Активне рульове управління
4713329 Кольорова сіль
4713330 Бікмурзін
4713331 Горбун
4713332 Воллес (прізвище)
4713334 Воллес (ім'я)
4713335 Сисоєв Євген Євгенович
4713336 Дацків
4713340 Дельцов
4713342 Війна з ломбардцями (1228—1243)
4713346 BMW X6 (E71)
4713358 ДНК (роман)
4713361 Chlorestes
4713362 Chionomesa
4713363 Аріан венесуельський
4713364 Аріан сапфіровогорлий
4713365 Колібрі кордильєрський
4713366 Колібрі багряногорлий
4713367 Колібрі плямистоволий
4713368 Колібрі-тонкодзьоб вилохвостий
4713369 Колібрі-ангел синьоголовий
4713370 Колібрі-ангел біловусий
4713371 Колібрі-ангел фіолетововусий
4713372 Колібрі-ангел синьогрудий
4713401 Саланов Олексій Михайлович
4713438 Крістіан Чукву
4713444 Тернер (стадіон)
4713446 Чукву
4713452 Казнов Федір Васильович
4713464 Ilex rarasanensis
4713466 Ґерд Брантенберґ
4713469 Ilex rotunda
4713472 Крізь браму срібного ключа
4713476 Бурдаков Олександр Степанович
4713481 Ітамар Швіро
4713492 Ilex suzukii
4713493 Кулагін Іван Юхимович
4713499 Ilex tugitakayamensis
4713504 Станція Внизу
4713506 Cambeva gamabelardense
4713512 Halcyon gularis
4713515 Сеїтов Піржан
4713518 Альціон яванський
4713523 Софія Саксен-Лауенбурзька (1521–1571)
4713529 Альціон каштановий
4713536 Давид Ноланд
4713537 Лакепа
4713540 Альціон сіроголовий
4713545 Альціон буроголовий
4713550 Альціон малий
4713553 Cyrtodactylus monilatus
4713555 Іванова Алла Данилівна
4713570 Манюков Михайло Миколайович
4713578 Колесник Володимир Артемович
4713581 Бертран Бессьєр
4713586 Ilex uraiensis
4713588 Ilex warburgii
4713592 Ilex sugerokii
4713596 Ilex yunnanensis
4713598 Раз Шломо
4713599 Ilex dipyrena
4713602 Ilex excelsa
4713605 Ilex suaveolens
4713624 Царівни
4713628 Сольві Ватнгамар
4713633 Чорний президент, або расовий шок
4713634 Лі Ервін
4713641 Ilex wilsonii
4713644 Коргот-Варвар
4713652 Рут Снайдер
4713653 Шьоненверд
4713654 Ilex pernyi
4713659 Стара синагога в Ерфурті
4713663 229 батальйон 127 окремої бригади територіальної оборони
4713664 Оскар Уртадо
4713666 Ilex kwangtungensis
4713671 Моше Бейлінсон
4713674 Бейлінсон
4713675 Елмер Дрю Меррілл
4713696 Запорожгаз-Сервис
4713700 BMW X6 (F16)
4713702 Михайленко Євген Вікторович
4713705 Сужиков Мухамедгалі Аленович
4713710 Список керівників держав 856 року
4713712 Єфімов Олександр Олександрович
4713713 Ilex corallina
4713718 BMW N55
4713724 Бурма Ігор Леонідович
4713726 Андач (потік)
4713727 Зірка (Кропивницький) у сезоні 2018—2019
4713728 Волошинів Павло Ількович
4713729 Карібжанов Фазил Карімович
4713737 Андач
4713747 Кодіна
4713749 Юкачев Микола Вікторович
4713755 Абдукарімов Ісатай Абдукарімович
4713760 Андрій (Хім'як)
4713762 Глинський Олександр Сергійович
4713768 Еммануель Матута
4713769 Ловля яблук
4713771 Kyrrex
4713777 Радініо Балкер
4713783 Хім'як
4713788 Нордін Мусампа
4713791 Мехді Массауді
4713804 Корона (1 сезон)
4713806 Майк Галакос
4713812 Лема про видалення графа
4713829 Ржевський меморіал радянському солдату
4713831 Бінья Ран I
4713844 Канонерські човни типу «Кановас дель Кастільйо»
4713845 Лі Чон Пек
4713856 Ilex fargesii
4713857 Бінья Вару
4713860 Діамантовий ювілей
4713866 Нуджевський Митрофан Єфимович
4713868 Втрати 3-ї окремої бригади спеціального призначення (РФ)
4713869 Джей Гортер
4713873 Бінья Чан
4713875 Швейцарський варіант німецької мови
4713876 Ilex serrata
4713883 Задача Ружі — Семереді
4713885 Лабазанов Ібрагім Сулейманович
4713887 Лейк Мунгто
4713898 Гельвецизм
4713906 Шінсобу
4713909 Ахметджан Каплан
4713922 Лізингові компанії
4713923 Ilex chapaensis
4713926 Індійський захист
4713937 Перша пісня про Івано-Франківськ
4713943 Дельта (система координації військ)
4713948 Сонатно-симфонічний цикл
4713951 Елвіс Брайкович
4713955 Генріх Бургер
4713957 Капітон
4713962 Аймен Дахмен
4713967 Альбрехт Баєр
4713968 Едмон Бошам
4713969 Корона (2 сезон)
4713973 BMW X3 (E83)
4713974 Корона (4 сезон)
4713979 Шеїн Кирило Костянтинович
4713980 Бабич Олексій Олександрович
4713982 Енгельс (авіабаза)
4713983 Масове отруєння в Чернівцях
4713985 147-ма резервна дивізія (Третій Рейх)
4713986 Сквер імені Гейдара Алієва (Грузія)
4713991 Строкатий серпокрилець
4713992 Колібрі-кокетка золотовусий
4713993 Колібрі-кокетка плямистовусий
4713994 Колібрі-кокетка смугастовусий
4713995 Колібрі-кокетка короткочубий
4713996 Колібрі-кокетка довгочубий
4713997 Колібрі-кокетка плямисточубий
4713998 Колібрі-кокетка рудохвостий
4713999 Lophornis verreauxii
4714000 Колібрі-кокетка зеленовусий
4714001 Колібрі-вусань чорночубий
4714002 Колібрі-вусань білочубий
4714014 Морозов Федір Степанович
4714028 Вінтер (стадіон)
4714037 Гетеренгелеві
4714045 BMW X3 (F25)
4714048 Lustra (band)
4714053 Брайкович
4714067 Обвалення пішохідного мосту у Морві
4714073 Вікі Перец
4714074 Микитенко Валерій Миколайович
4714077 The Witcher (серія відеоігор)
4714083 Втрати кадирівців
4714088 Москович Вольф Абрамович
4714089 Шалом Тіква
4714094 Isuzu Gemini
4714097 Sterling Trucks
4714098 Муніципальний стадіон (Герцлія)
4714103 Кобзар Федір Федорович
4714107 BMW X3 (G01)
4714109 Юрісанді Ернандес
4714116 Карлос Муньйос (борець)
4714118 Бібліографія Браяна Олдіса
4714127 Філатов Іван Миколайович
4714129 Письмова мова
4714130 Жан Ґрібомон
4714136 Паяса
4714140 Длугашевський Костянтин Наумович
4714145 Дачан-Хуейський автономний повіт
4714146 Лужицька міфологія
4714149 Дике поле (пісня)
4714154 Їтун-Маньчжурський автономний повіт
4714157 Dig, Lazarus, Dig!!!
4714166 Первісний потяг

*   List item
*   List item



In [18]:
!mv wiki.txt ukwiki-20221101-pages-articles.txt

In [19]:
!wc ukwiki-20221101-pages-articles.txt

  11762874  250967675 3298241846 ukwiki-20221101-pages-articles.txt


In [20]:
!cp ukwiki-20221101-pages-articles.txt ukwiki-20221101-pages-articles2.txt

In [22]:
!gzip ukwiki-20221101-pages-articles2.txt

In [None]:
FIn = open('/content/ukwiki-20221101-pages-articles.txt', 'r')
FOut = open('/content/ukwiki-20221101-frq-dict.txt', 'w')
wordfreq = corp2frq(FIn)
printFrqDict(wordfreq, FOut)

50000
100000
150000
200000
250000
300000
350000
400000


In [None]:
!wc ukwiki-20221101-frq-dict.txt

In [None]:
!gzip ukwiki-20221101-frq-dict.txt