Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Q: сам/самий #9

Open
arysin opened this issue Jan 27, 2023 · 2 comments
Open

Q: сам/самий #9

arysin opened this issue Jan 27, 2023 · 2 comments
Labels

Comments

@arysin
Copy link
Contributor

arysin commented Jan 27, 2023

ВЕСУМ:

сам adj:m:v_naz:&pron:def # сам, сами́й
    самий adj:m:v_naz:&pron:def # сами́й

самий adj:m:v_naz:&pron:def # са́мий

Теоретично критерії досить чіткі:

  1. наголос, схоже для сам/самий наголос завжди на другому складі
  2. якщо можна поміняти на «сам», то лема «сам»

Тобто «на самому велотреці було людно» - тут са́мому не звучить, і можна сказати «на сам велотрек я приїхав» схоже «само́му» і лема «сам». Але якщо дивитися на фразу «на самому початку» то є сумніви, бо:

  1. з одного боку краще звучить «на само́му початку» і можна (мабуть) сказати «поставив на сам початок», але
  2. з іншого боку у СУМі у статті http://sum.in.ua/s/samyj дають приклад: «До са́мого краю» (край і початок мають схожу семантику); і ще є проблема що можна сказати «прийшов на сам край». Чи тут вжиток «сам» у значенні «са́мий» є застарілим/розмовним??
@arysin
Copy link
Contributor Author

arysin commented Jan 27, 2023

VS: Це дуже слизьке місце. Найкраще було б оптимізувати в словнику, скажімо, об'єднати це в одну лему з широкою й великою парадигмою — але щоб лема була одна! Ну або одна лема "самий" з великою парадигмою і окремо форми сам v_naz/v_zna. Я довго думав, як би це краще зробити, але обидва варіанти спрощення муляють.
Проблема в тому, що ці вживання дуже-дуже важко розрізняти. Підозрюю, що мовці інколи можуть плутатися. І є також застарілі вживання в давніших текстах.
Іти за наголосом - річ непевна, бо він рухомий і звучить/не звучить — суб'єктивна оцінка.
"Самий" вживається переважно після прийменників, зокрема на позначення часової й просторової межі. Тому "на самому початку" - це лема "самий". І правильно буде "поставив на самий початок". Однак "сам початок вистави засвідчив..." - тут лема "сам", бо йдеться про значення "лише початок, без нічого іншого".
Коротше, було б добре, якось це об'єднати — навіть якщо це буде відхил від академічності. Зрештою наголос ми не враховуємо, а теги для непрямих форм всюди однакові — що для сам, що для самий. Проблема тільки в лемі. Теоретично можна було б покласти (дещо штучно, але зручно), що є одна лема "самий", яка має варіантну словоформу "сам" в v_naz/v_zna. Але тоді в тексті слово "сам" буде зводитися до леми "самий" — і це погано.

@arysin
Copy link
Contributor Author

arysin commented Jan 27, 2023

VS: я теж не до кінця певний щодо саме цього випадку, але вже утвердився в думці, що таке об'єднання — менше зло, ніж витрата купи часу на розмежування цих омонімів. Адже нам треба спершу вручну вибрати в кожному випадку правильний варіант, а потім натренувати модель, яка сама розрізнятиме. І саме в цьому випадку буде складно і людині, а модель взагалі робитиме купу помилок, бо контексти дууууже подібні, а відтак тягнутиме донизу загальну точність тегування. Якщо об'єднати, то все буде просто й однозначно.
В кінцевому варіанті протегованих текстів в alts мають залишитися, я вважаю, тільки ті випадки, де неможливо однозначно зняти омонімію (хочуть - форма від хотіти чи хтіти?) і де ми волюнтаристськи вибираємо один (частотніший) варіант.
А загалом ці складні моменти справді будуть мало кому потрібні. В англійських корпусах теж роблять спрощення й ідуть на розв'язки, які не є на 100% задовільними, але вони простіші й ніхто не вкладає сотні годин роботи в такі деталі.
його/її — це трохи інше, хоча проблема споріднена.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant