Skip to content

Wikipedia archive downloader+text parser for every language

Notifications You must be signed in to change notification settings

temurchichua/MagicDumpWikipedia

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

MagicDump - Wikipedia dump file to pre-processed Text

Wikipedia-ს dump ფაილიდან ტექსტის მომზადება დასამუშავებლად

made-with-python

ვიკიპედიიდან გადმოწერილი დამპ ფაილი პირდაპირ არ არის მზად NLP დავალებებთან სამუშაოდ (სჭირდება ტექსტის ამოღება თეგებიდან, წინადადებების დაყოფა, ხაზზე განაწილება და ა.შ.)

არსებული რეპოზიტორიის დახმარებით შეძლებთ dump ფაილის ბოლო ვერსიის გადმოწერის > დაექსტრაქტების > ტექსტის ამოღების > გასუფთავების ეტაპების ავტომატიზაციას

მოთხოვნები:

პროექტი მორგებულია Python 3-ის სამუშაო გარემოზე. გამართული და შემოწმებულია:

Python 3.8.3 (default, Jul 2 2020, 16:21:59) [GCC 7.3.0] :: Anaconda, Inc. on linux

პროექტს გასაშვებად სჭირდება ორი ბიბლიოთეკა:

დასაყენებლად ტერმინალში გაუშვით ბრძანება:

pip install -r requirements.txt

გაშვების ინსტრუქცია

პროექტის გასაშვებათ თქვენს მოწყობილობაში დაკლონეთ ეს რეპოზიტორია.

მას შემდეგ რაც წინა საფეხურებს გაივლით, მოწყობილობაში გახსნით რეპოზიტორიას და ბიბლიოთეკებს დააყენებთ გაუშვით ტერმინალ ბრძანება:

sh magicdump.sh <language>

<language>-ს ნაცვლად ჩაწერეთ იმ ენის ISO 639-1 (two-letter codes) ტეგი, რომელ ენაზე არსებული ვიკიპედიის არქივის დამპის გადმოწერაც გინდათ. ენის ტეგები შეგიძლიათ ნახოთ აქ.

მაგალითად, ქართული ენისთვის:

sh magicdump.sh ka

watch the magic happen ;)

შედეგი:

საბოლოოდ დაგხვდება რამოდენიმე ფაილი გაშვების დირექტორიიდან:

  • *wiki-lastest-pages-articles.xml.bz2 - არქივი
  • *wiki-lastest-pages-articles.txt - არქივიდან ამოღებული ტექსტი
  • *wiki-lastest-pages-articles-preprocessed.txt - ხაზებად გადანაწილებული წინადადებები

წყაროები:

  1. სრული ინსტრუქცია ინგლისურ ენაზე და განხილული კოდის ფრაგმენტები კოდის ავტორისგან

About

Wikipedia archive downloader+text parser for every language

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published