مجموعه ای از جملات به زبان فارسی برای پروژه common voice موزیلا
برای کمک به پروژه متن باز common voice بنیاد موزیلا ما نیاز به جملاتی داریم که بعدا توسط دیگر فارسی زبان ها ضبط بشه و به دیتابیس اضافه بشه چند نکته در این مورد وجود داره که حتما باید رعایت بکنید.
دو راه برای نوشتن جمله ها وجود داره:
-
خود شما جملات رو بنویسید.
-
جملات موجود در سایت های عمومی(به دلیل مسائل کپی رایت) رو مرتب کنید و بنویسید.
۱. خود شما جملات رو بنویسید.
-
در حالت ایده آل، باید 5 ثانیه خواندن هر جمله (حداکثر 10 ثانیه) طول بکشه. بنابراین برای جملات تقریبا 5 تا 10 کلمه را هدف قرار دهید.
-
جملات 1 یا 2 کلمهای نیز خوب است، اما نه برای همه جملات! سعی کنید ترکیب جملات کوتاه و متوسط داشته باشید، اما سعی کنید همه آنها را زیر 10 ثانیه خوانده شدن حفظ کنید
-
سعی کنید از کلمات مختلف استفاده کنید. این کار به غنی سازی واژگان ابزارهای یادگیری ماشین کمک خواهد کرد.
-
استفاده از جملات با نشانه های نگارشی(نقطه ؛ کاما وعلامت سوال) نیز عالی است، اما زیاد خود را درگیر ان نکنید
-
اگر زبان شما از هر نماد خاص استفاده می کند (به عنوان مثال ُ ، ِ ، َ ) این عالی است. با استفاده از نحوه تلفظ ان ها به فارسی، به دستگاه برای تشخیص صداهای مختلف کمک می کند.
-
سعی کنید اسم های مناسب (نام ها(محمد علی و ....) و نام های خانوادگی پر استفاده (محمدی احمدی و......) ، نام خیابان ها، مکان ها و غیره) را وارد کنید.
-
اعداد خوب هستند، اما لطفا عدد را به جای نوشتن ارقام به صورت حروف بنویسید (به عنوان مثال "پانصد و بیست و هفت" به جای "527")
۲. جملات موجود در سایت های عمومی(به دلیل مسائل کپی رایت) رو مرتب کنید و بنویسید.
- بهترین منابع مورد نظر شما، پادکست ها، روزنامه ها، وبلاگ ها ، زیرنویس های فیلم و هر چیز دیگری است که ممکن است شامل مکالمات روزمره باشد.
- جلسات دولتی، کتاب ها و مقالات نیز بسیار عالی است هرچند که متون رسمی کمتردر اولویت ماست.
- متاسفانه ما هنوز نمی توانیم مقالات ویکیپدیا را داشته باشیم. بنابراین از آنجا کپی نکنید(مسائل کپی رایت).
- دو منبع عالی برای بررسی عبارتند از: Crawl Common وOpen Subtitles. اگر هر مجموعه مشابهی را در زبان محلی خود پیدا کنید، عالی است
این که هرچند مسائل کپی رایت در ایران جدی گرفته نمیشه اما شما سعی کنید اون ها رو رعایت کنید منابع بسیاری برای بهره گیری وجود داره و در اخر کیفیت مهم تر از کمیت هست
علی به خانه رفت.
چرا ما اینجاییم؟
جامعه متن باز بسیار بزرگ است.
منبع: Common Voice