Skip to content

Wikipedia Tamil Text Corpus

இரா. அசோகன் edited this page Feb 14, 2019 · 5 revisions

விக்கிப்பீடியா தமிழ் உரைத்தொகுப்பு (text corpus)

விக்கிப்பீடியா மற்றும் அதன் குழு தளங்களில் இருந்து ஒரு தமிழ் உரைத்தொகுப்பு (text corpus) தயார் செய்துள்ளேன். இந்த உரைத்தொகுப்பில் சுமார் 5.9 மில்லியன் சொற்கள் உள்ளன. சுருக்கப்பட்ட கோப்பு அளவு 20 MB. விரிவு செய்தால் 148 MB ஆகும். தமிழ் இயல்மொழி பகுப்பாய்வில் (Natural Language Processing) வேலை செய்யவும் மற்றும் பிற வேலைகளுக்கும் எவரும் இதை எளிதாக பதிவிறக்கம் செய்து பயன்படுத்த முடியும்.

இதன் 25 பகுப்புகள் கீழே:

தமிழ் விக்கிப்பீடியா - சுமார் 3.8 மில்லியன் சொற்கள்:

  1. அறிவியல்
  2. கணிதம்
  3. சமூகம்
  4. தமிழ்
  5. தொழினுட்பம்
  6. நபர்கள்
  7. பண்பாடு
  8. புவியியல்
  9. வரலாறு

விக்கிமூலம் (தற்காலத் தமிழ் எழுத்தாளர் உரைநடைப் படைப்புகள் மட்டும்) - சுமார் 1.7 மில்லியன் சொற்கள்:

  1. அண்ணாதுரை - ரங்கோன் ராதா
  2. மு. வரதராசன் - அகல் விளக்கு
  3. ரெ. கார்த்திகேசு - அந்திம காலம்
  4. கல்கி - பொன்னியின் செல்வன்
  5. கல்கி - பார்த்திபன் கனவு
  6. கல்கி - சிவகாமியின் சபதம்
  7. கல்கி - அலை ஓசை
  8. கல்கி - தியாக பூமி
  9. கல்கி - மற்ற நாவல்கள்
  10. கல்கி - சிறுகதைகள்‎
  11. புதுமைப்பித்தன் - சிறுகதைகள்
  12. ஜெயகாந்தன் - சிறுகதைகள்
  13. பல ஆசிரியர்கள் - சிறுகதைகள்
  14. பல ஆசிரியர்கள் - கட்டுரைகள்

விக்கிசெய்தி - சுமார் 0.4 மில்லியன் சொற்கள்

விக்கிநூல்கள் - சுமார் 17 ஆயிரம் சொற்கள்

நீங்கள் இந்த சுருக்கப்பட்ட தமிழ் உரைத்தொகுப்பை (text corpus) வெளியீடு பக்கத்தில் இருந்து பதிவிறக்க முடியும். ஏதாவது பிரச்சினை வந்தால் அல்லது பரிந்துரை இருந்தால் இங்கு ஒரு புதிய Issue உருவாக்குங்கள்.

குறிப்புகள்:

  1. நான் இந்த உரைத்தொகுப்பை விக்கிப்பீடியா API வழியாக பிரித்தெடுத்த பைத்தான் நிரல்களையும் பகிர்ந்து கொண்டுள்ளேன் (பிரிவுகள் மற்றும் துணை பிரிவுகள் மூலம் பிரித்தெடுத்தல்; பக்கம் மற்றும் தலைப்பு மூலம் பிரித்தெடுத்தல்). முன் தேவைகள்: wiki-api python library அல்லது wiki-api python library.
  2. API நிரல்கள் பைதான் 3-ல் எழுதப்பட்டவை.
  3. தெரிந்த பிரச்சினைகள்: விக்கிமூலத்தில் பல இடங்களில் ஆ என்ற எழுத்து மட்டும் விட்டுப்போயிருக்கிறது. ஆகவில்லை, ஆயினும், ஆனாலும் என்பவை கவில்லை, யினும், னாலும் என்றே உள்ளன. ஃ என்ற எழுத்து ஒரு பெரிய புள்ளியாக (•ப்ரான்ஸ்) உள்ளது. இவை ஒளி எழுத்துணரி (OCR) மென்பொருள் வழுவாக இருக்கலாம்.

License: Please note that Wikipedia text is available under the Creative Commons Attribution-ShareAlike License; additional terms may apply.

Acknowledgement: Many thanks to Richard O’Dwyer of UK for developing the wiki-api Python library to access Wikipedia content through its API and sharing it as open source.