Skip to content

Latest commit

 

History

History
531 lines (499 loc) · 11.8 KB

available_tossi_list.md

File metadata and controls

531 lines (499 loc) · 11.8 KB

이 프로젝트가 다룰 수 있는 총 토시 목록

이 글은 이 프로젝트가 다룰 수 있는 토시 목록을 항상 최근 것으로 갱신하는 문서입니다. 이 프로젝트에서 처리할 수 있는 토시는 다음과 같이 2가지 종류가 있습니다.

  • 붙일 단어에 따라 변환하는 토시들
  • 붙일 단어에 따라 변환할 필요가 없는 토시들

'붙일 단어에 따라 변환할 필요가 없는 토시'들에 속하는 토시들은 이 토시 앞에 어떤 단어가 와도 토시가 변하지 않는 토시를 말합니다. '붙일 단어에 따라 변환하는 토시들'에 속하는 토시들은 이 토시 앞에 어떤 단어가 오는지에 따라 토시 자체가 변하게 됩니다. 이때 토시에 따라 변하는 형태가 다르기 때문에 단순하게 처리하기는 것이 쉽지 않습니다. 그리고 어떤 토시가 변하고 어떤 토시는 변하지 않는지 구분하는 것도 쉽지 않습니다. 이 두 가지 쉽지 않는 점을 해결하고자 하는 것이 이 라이브러리의 목표이기도 합니다.

붙일 단어에 따라 변환하는 토시 전체 목록

이 목록은 /src/transfer.rs에서 뽑을 수 있습니다. 이 파일 안에 있는 코드들이 현재 이 라이브러리에 하는 일 중 가장 중요한 일인 입력된 토시가 변환할 토시인지 확인하고 같이 입력된 단어를 살펴보고 변환하는 일을 합니다. 아래 목록은 현재 이 라이브러리에서 처리할 수 있는 단어에 따라 변환할 수 있는 토시 목록입니다.

  • 갯수: 87
[
    "(가)이",
    "(과)와",
    "(는)은",
    "(를)을",
    "(와)과",
    "(으)로",
    "(으)로부터",
    "(으)로서",
    "(으)로써",
    "(은)는",
    "(을)를",
    "(이)가",
    "(이)고",
    "(이)나",
    "(이)나마",
    "(이)니",
    "(이)다",
    "(이)든",
    "(이)든가",
    "(이)든지",
    "(이)라고",
    "(이)라도",
    "(이)라야",
    "(이)란",
    "(이)랑",
    "(이)며",
    "(이)야말로",
    "(이)여",
    "",
    "가(이)",
    "",
    "",
    "과(와)",
    "",
    "나마",
    "",
    "는(은)",
    "",
    "",
    "",
    "든가",
    "든지",
    "라고",
    "라도",
    "라야",
    "",
    "",
    "",
    "로부터",
    "로서",
    "로써",
    "",
    "를(을)",
    "",
    "야말로",
    "",
    "",
    "와(과)",
    "으로",
    "으로부터",
    "으로서",
    "으로써",
    "",
    "은(는)",
    "",
    "을(를)",
    "",
    "이(가)",
    "이고",
    "이나",
    "이나마",
    "이니",
    "이다",
    "이든",
    "이든가",
    "이든지",
    "이라고",
    "이라도",
    "이라야",
    "이란",
    "이랑",
    "이며",
    "이야말로",
    "이여",
    "인들",
    "인즉",
    "일랑"
]

붙일 단어에 따라 변환하는 토시들 중에서 괄호가 들어 있는 토시들

이 프로젝트에서는 현재 입력된 외국어 단어를 현지 외국어 발음으로 읽어 낼 수 없습니다. 그렇다 보니 외국어 단어에는 토시를 그 단어의 발음에 맞게 변환할 수 없습니다. 이런 경우에는 '(이)가'과 같이 괄호를 이용해 변화할 토시를 병기해서 반환하고 있습니다. 그리고 이렇게 처리하고 있는 토시들을 우리가 처리할 수 있는 토시 목록에 넣지 않고 있습니다. 이렇게 처리하고 있는 토시들을 우리가 처리할 수 있는 토시 목록에 넣지 않고 있습니다. 왜냐하면 내부적으로는 이런 토시들도 처리하고 있지만, 굳이 외부에 공개할 필요가 없다고 생각하고 있기 때문입니다.

  • 갯수: 36
[
    "(가)이",
    "(과)와",
    "(는)은",
    "(를)을",
    "(와)과",
    "(으)로",
    "(으)로부터",
    "(으)로서",
    "(으)로써",
    "(은)는",
    "(을)를",
    "(이)가",
    "(이)고",
    "(이)나",
    "(이)나마",
    "(이)니",
    "(이)다",
    "(이)든",
    "(이)든가",
    "(이)든지",
    "(이)라고",
    "(이)라도",
    "(이)라야",
    "(이)란",
    "(이)랑",
    "(이)며",
    "(이)야말로",
    "(이)여",
    "가(이)",
    "과(와)",
    "는(은)",
    "를(을)",
    "와(과)",
    "은(는)",
    "을(를)",
    "이(가)"
]

붙일 단어에 따라 변환하는 토시들 중에서 괄호가 없는 토시 목록

이 목록이 현재 프로젝트에서 공식적으로 처리할 수 있는 '붙일 단어에 따라 변환하는 토시들' 목록입니다. 실제로 변환할 수 있는 있는 토시는 앞에서 소개한 목록에 들어 있는 토시들이지만, 이 목록에는 외국어에 토시를 붙이는 경우와 같이 특수한 목적을 위해서 괄호가 들어 있는 것까지 포함하고 있기 때문에 내부적으로 위의 목록을 처리할 수 있지만, 공식적으로 처리하는 목록으로 사용하기에는 적절하지 않다고 생각합니다. 따라서 공식적으로 처리하는 토시 목록을 만들기 위해서는 위의 목록에서 괄호를 포함하고 있는 토시들을 뺀 목록이 필요합니다. 이 목록이 바로 그런 목록입니다. 이 목록이 이 프로젝트에서 공식적으로 처리할 수 있는 '붙일 단어에 따라 변환하는 토시들' 목록입니다.

  • 갯수: 51
[
    "",
    "",
    "",
    "",
    "나마",
    "",
    "",
    "",
    "",
    "든가",
    "든지",
    "라고",
    "라도",
    "라야",
    "",
    "",
    "",
    "로부터",
    "로서",
    "로써",
    "",
    "",
    "야말로",
    "",
    "",
    "으로",
    "으로부터",
    "으로서",
    "으로써",
    "",
    "",
    "",
    "이고",
    "이나",
    "이나마",
    "이니",
    "이다",
    "이든",
    "이든가",
    "이든지",
    "이라고",
    "이라도",
    "이라야",
    "이란",
    "이랑",
    "이며",
    "이야말로",
    "이여",
    "인들",
    "인즉",
    "일랑"
]

붙일 단어에 따라 변환할 필요가 없는 토시 목록

변환할 필요가 없는데도 이 목록을 만드는 이유는 이 목록에 들어 있는 토시 또한 이 라이브러리로 처리할 수 있는 것들이기 때문입니다. 왜냐하면 앞에서 말한 것처럼 특정 토시가 변환할 필요가 있는지 없는지를 판단하는 것 또한 쉽지 않기 때문입니다. 그렇기 때문에 이 라이브러리가 이 두 가지를 파학하는 것 또한 중요한 기능 중 하나입니다. 변환이 필요 없는 토시 목록은 /src/tossi.rs에서 뽑아낸 이 라이브러리에서 처리할 수 있는 총 토시 목록에서 앞에서 소개한 붙일 단어에 따라 변환하는 토시들 목록을 빼서 만들고 있습니다.

  • 갯수: 33
[
    "같이",
    "거나",
    "",
    "게서",
    "까지",
    "",
    "께서",
    "대로",
    "",
    "마냥",
    "마다",
    "마저",
    "",
    "만큼",
    "밖에",
    "보다",
    "부터",
    "",
    "",
    "에게",
    "에게로",
    "에게서",
    "에다가",
    "에서",
    "에서부터",
    "",
    "조차",
    "처럼",
    "커녕",
    "하고",
    "한테",
    "한테로",
    "한테서"
]

이 라이브러리가 처리할 수 있는 총 토시 목록

이 목록은 변환이 필요 없는 토시 목록 + 이 라이브러리가 처리할 수 있는 토시 총 목록입니다. 앞에서 '붙일 단어에 따라 변환하는 토시들 중에서 괄호가 들어 있는 토시들'을 설명할 때 이야기한 것처럼 동일한 토시이지만 괄호가 다양하게 들어가 있어 같은 토시를 중복 것들을 처리하고 있기 때문이 목록은 내부적으로 사용하고 토시 목록입니다. 왜냐하면 괄호가 다양하게 들어가 같은 토시인데도 중복된 것들을 처리하고 있기 때문입니다.

갯수는: 120

[
    "(가)이",
    "(과)와",
    "(는)은",
    "(를)을",
    "(와)과",
    "(으)로",
    "(으)로부터",
    "(으)로서",
    "(으)로써",
    "(은)는",
    "(을)를",
    "(이)가",
    "(이)고",
    "(이)나",
    "(이)나마",
    "(이)니",
    "(이)다",
    "(이)든",
    "(이)든가",
    "(이)든지",
    "(이)라고",
    "(이)라도",
    "(이)라야",
    "(이)란",
    "(이)랑",
    "(이)며",
    "(이)야말로",
    "(이)여",
    "",
    "가(이)",
    "같이",
    "거나",
    "",
    "게서",
    "",
    "",
    "과(와)",
    "까지",
    "",
    "께서",
    "",
    "나마",
    "",
    "는(은)",
    "",
    "",
    "대로",
    "",
    "",
    "든가",
    "든지",
    "라고",
    "라도",
    "라야",
    "",
    "",
    "",
    "로부터",
    "로서",
    "로써",
    "",
    "를(을)",
    "마냥",
    "마다",
    "마저",
    "",
    "만큼",
    "",
    "밖에",
    "보다",
    "부터",
    "",
    "야말로",
    "",
    "에게",
    "에게로",
    "에게서",
    "에다가",
    "에서",
    "에서부터",
    "",
    "",
    "와(과)",
    "으로",
    "으로부터",
    "으로서",
    "으로써",
    "",
    "은(는)",
    "",
    "을(를)",
    "",
    "",
    "이(가)",
    "이고",
    "이나",
    "이나마",
    "이니",
    "이다",
    "이든",
    "이든가",
    "이든지",
    "이라고",
    "이라도",
    "이라야",
    "이란",
    "이랑",
    "이며",
    "이야말로",
    "이여",
    "인들",
    "인즉",
    "일랑",
    "조차",
    "처럼",
    "커녕",
    "하고",
    "한테",
    "한테로",
    "한테서"
]

공식적으로 이 라이브러리가 처리할 수 있는 총 토시 목록

변환이 필요 없는 토시 목록 + 이 라이브러리가 처리할 수 있는 토시 총 목록 이 목록이 대외적으로 발표해야 하는 처리할 수 있는 토시 목록 괄호가 다양하게 들어가 중복된 것들을 제거한 것이 이것입니다.

갯수는: 84

[
    "",
    "같이",
    "거나",
    "",
    "게서",
    "",
    "",
    "까지",
    "",
    "께서",
    "",
    "나마",
    "",
    "",
    "",
    "대로",
    "",
    "",
    "든가",
    "든지",
    "라고",
    "라도",
    "라야",
    "",
    "",
    "",
    "로부터",
    "로서",
    "로써",
    "",
    "마냥",
    "마다",
    "마저",
    "",
    "만큼",
    "",
    "밖에",
    "보다",
    "부터",
    "",
    "야말로",
    "",
    "에게",
    "에게로",
    "에게서",
    "에다가",
    "에서",
    "에서부터",
    "",
    "",
    "으로",
    "으로부터",
    "으로서",
    "으로써",
    "",
    "",
    "",
    "",
    "이고",
    "이나",
    "이나마",
    "이니",
    "이다",
    "이든",
    "이든가",
    "이든지",
    "이라고",
    "이라도",
    "이라야",
    "이란",
    "이랑",
    "이며",
    "이야말로",
    "이여",
    "인들",
    "인즉",
    "일랑",
    "조차",
    "처럼",
    "커녕",
    "하고",
    "한테",
    "한테로",
    "한테서"
]

참고

여기서 소개한 목록들은 모두 total_tossi.json이라는 이름으로 json 형식 파일로 현재 폴더 안에 있습니다. 이 파일로도 목록을 확인할 수 있습니다. 다음 링크에서 total_tossi.json을 확인하실 수 있습니다.

-total_tossi.json

그리고 이 문서는 현재 automatic_list_creation.py라는 스크립트를 통해서 반자동적으로 생성되고 있습니다. 다음 링크에서 이 스크립트 코드를 확인하실 수 있습니다.

-automatic_list_creation.py