Skip to content

Collection of most repeated words in every languages

License

Notifications You must be signed in to change notification settings

ehsan957/mainwords

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 

Repository files navigation

The goal of this project is to find the most repeated words in each different language. In this, I don't want to focus only on official texts, so unofficial and conversational texts are important too. Now I began with finding the most repeated words in Farsi (my native language that also called Persian). for collecting the words I used the RSS feed of 171 blogs. The result of reading the feed was 743646 words and 55442 unique words. I stored all words and unique words in two SQL tables that you can access theme in the Farsi folder, also for ease I stored the top 100 and top 500 most repeated Farsi words in two files. You can see the source of farsi texts on topblogsrss.txt

هدف از این پروژه یافتن کلمات پرتکرار در زبان‌های مختلف است. در این پروژه ما نه فقط به متون رسمی بلکه به متون غیر رسمی و محاوره‌ای هم توجه می‌کنیم. من این کار را با زبان فارسی شروع کردم، و برای این هدف به سراغ فید آر‌اس‌اس ۱۷۱ وبلاگ رفتم. دلیل این کار وجود متن‌های رسمی و محاوره‌ای در وبلاگ‌ها بود. و نتیجه‌ی خواندن این فیدها ۷۴۳۶۴۶ کلمه و ۵۵۴۴۲ کلمه‌ی منحصر به فرد بود. من همه‌ی این کلمات و همچنین کلمات منحصر به فرد را به صورت دو فایل SQL در پوشه‌ی فارسی ذخیره کردم. همچنین برای راحتی کار به صورت جداگانه ۱۰۰ کلمه و ۵۰۰ کلمه‌ی پرتکرار را هم در دو فایل مجزا ذخیره کردم. همچنین آدرس فیدهای آراس‌اسی که کلمات فارسی را از آن‌ها استخراج کردم را هم در فایل topblogsrss.txt منتشر کردم

About

Collection of most repeated words in every languages

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages