Skip to content

مجموعه ای از جملات به زبان فارسی برای پروژه common voice موزیلا

License

Notifications You must be signed in to change notification settings

imanmoghimiq30/mozilla-voice-fa

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

جملات فارسی برای common voice

مجموعه ای از جملات به زبان فارسی برای پروژه common voice موزیلا

مشارکت:

برای کمک به پروژه متن باز common voice بنیاد موزیلا ما نیاز به جملاتی داریم که بعدا توسط دیگر فارسی زبان ها ضبط بشه و به دیتابیس اضافه بشه چند نکته در این مورد وجود داره که حتما باید رعایت بکنید.

دو راه برای نوشتن جمله ها وجود داره:

  • خود شما جملات رو بنویسید.

  • جملات موجود در سایت های عمومی(به دلیل مسائل کپی رایت) رو مرتب کنید و بنویسید.


۱. خود شما جملات رو بنویسید.

  • در حالت ایده آل، باید 5 ثانیه خواندن هر جمله (حداکثر 10 ثانیه) طول بکشه. بنابراین برای جملات تقریبا 5 تا 10 کلمه را هدف قرار دهید.

  • جملات 1 یا 2 کلمه‌ای نیز خوب است، اما نه برای همه جملات! سعی کنید ترکیب جملات کوتاه و متوسط داشته باشید، اما سعی کنید همه آنها را زیر 10 ثانیه خوانده شدن حفظ کنید

  • سعی کنید از کلمات مختلف استفاده کنید. این کار به غنی سازی واژگان ابزارهای یادگیری ماشین کمک خواهد کرد.

  • استفاده از جملات با نشانه های نگارشی(نقطه ؛ کاما وعلامت سوال) نیز عالی است، اما زیاد خود را درگیر ان نکنید

  • اگر زبان شما از هر نماد خاص استفاده می کند (به عنوان مثال ُ ، ِ ، َ ) این عالی است. با استفاده از نحوه تلفظ ان ها به فارسی، به دستگاه برای تشخیص صداهای مختلف کمک می کند.

  • سعی کنید اسم های مناسب (نام ها(محمد علی و ....) و نام های خانوادگی پر استفاده (محمدی احمدی و......) ، نام خیابان ها، مکان ها و غیره) را وارد کنید.

  • اعداد خوب هستند، اما لطفا عدد را به جای نوشتن ارقام به صورت حروف بنویسید (به عنوان مثال "پانصد و بیست و هفت" به جای "527")

۲. جملات موجود در سایت های عمومی(به دلیل مسائل کپی رایت) رو مرتب کنید و بنویسید.

  • بهترین منابع مورد نظر شما، پادکست ها، روزنامه ها، وبلاگ ها ، زیرنویس های فیلم و هر چیز دیگری است که ممکن است شامل مکالمات روزمره باشد.
  • جلسات دولتی، کتاب ها و مقالات نیز بسیار عالی است هرچند که متون رسمی کمتردر اولویت ماست.
  • متاسفانه ما هنوز نمی توانیم مقالات ویکیپدیا را داشته باشیم. بنابراین از آنجا کپی نکنید(مسائل کپی رایت).
  • دو منبع عالی برای بررسی عبارتند از: Crawl Common وOpen Subtitles. اگر هر مجموعه مشابهی را در زبان محلی خود پیدا کنید، عالی است

سخن آخر

این که هرچند مسائل کپی رایت در ایران جدی گرفته نمیشه اما شما سعی کنید اون ها رو رعایت کنید منابع بسیاری برای بهره گیری وجود داره و در اخر کیفیت مهم تر از کمیت هست

نحوه نوشتن جملات (هر سطر یک جمله)

علی به خانه رفت.

چرا ما اینجاییم؟

جامعه متن باز بسیار بزرگ است.

منبع: Common Voice

About

مجموعه ای از جملات به زبان فارسی برای پروژه common voice موزیلا

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%