# 오늘의 목표

1. 표준국어대사전으로 만든 데이터프레임에서 명사 단어들만을 추출할 수 있다.
2. 한글로 표기된 단어가 주어졌을 때 각 음절의 유형을 추출할 수 있다.
    

## 예시

+ '왜냐하면' -> ('GV', 'CGV', 'CV', 'CGVC')

# 1. 데이터 살펴보기

## 1.1. 데이터프레임 가져오기

In [1]:
import pandas as pd

In [2]:
csvfilename = '../data/stdict_xml_20231105.csv'

In [3]:
df = pd.read_csv(csvfilename, index_col='target_code')
df

Unnamed: 0_level_0,word,word_unit,word_type,pos
target_code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,가경-지,단어,한자어,명사
2,가계-하다01,단어,혼종어,동사
3,가계02,단어,한자어,명사
4,가계-되다,단어,혼종어,동사
5,가계-하다03,단어,혼종어,동사
...,...,...,...,...
534435,지체^장애,구,한자어,품사 없음
534436,신체^장애인,구,한자어,품사 없음
534437,지각06,단어,한자어,명사
534438,대마^난류,단어,한자어,품사 없음


## 1.2. 데이터 요약하기

In [4]:
# word_unit 칼럼의 값들을 세기

단어     360629
구       62918
속담       7436
관용구      3887
Name: word_unit, dtype: int64

In [5]:
# word_type 칼럼의 값들을 세기

한자어    235445
혼종어     88548
고유어     75604
외래어     23950
Name: word_type, dtype: int64

In [6]:
df['pos'].value_counts()

명사        268627
품사 없음      70562
동사         56238
형용사        12749
부사         11983
구          11323
어미           808
의존 명사        737
접사           533
감탄사          525
대명사          272
조사           174
수사           163
관형사          157
보조 형용사        11
보조 동사          8
Name: pos, dtype: int64

## 1.3. 데이터의 범위를 선택하기

In [7]:
from collections import Counter
import re

In [8]:
# 데이터프레임의 word 칼럼에서 na 값들을 제외하고 str 자료형으로 설정하기
words = df.Series() # EDIT THIS LINE

# 단어 목록에서 한글이 아닌 문자들이 출현한 횟수를 세기
nonhangul_cnt = Counter() # EDIT THIS LINE
print(sorted(nonhangul_cnt))

[' ', '(', ')', ',', '-', '.', '/', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '[', ']', '^', 'ㄱ', 'ㄲ', 'ㄴ', 'ㄷ', 'ㄸ', 'ㄹ', 'ㅁ', 'ㅂ', 'ㅃ', 'ㅅ', 'ㅆ', 'ㅇ', 'ㅈ', 'ㅉ', 'ㅊ', 'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ', 'ㅏ', 'ㅐ', 'ㅑ', 'ㅒ', 'ㅓ', 'ㅔ', 'ㅕ', 'ㅖ', 'ㅗ', 'ㅘ', 'ㅙ', 'ㅚ', 'ㅛ', 'ㅜ', 'ㅝ', 'ㅞ', 'ㅟ', 'ㅠ', 'ㅡ', 'ㅢ', 'ㅣ', 'ㆍ', '一', '丈', '三', '上', '下', '不', '丘', '中', '主', '之', '乙', '九', '乭', '事', '五', '亡', '亨', '人', '代', '何', '佛', '使', '俗', '倉', '倒', '假', '傷', '僉', '價', '儀', '元', '全', '兩', '八', '六', '兵', '刑', '別', '利', '動', '勢', '勸', '化', '北', '匣', '十', '千', '升', '半', '却', '口', '古', '可', '同', '吏', '吠', '告', '命', '員', '哥', '唐', '問', '善', '喪', '器', '固', '地', '堂', '場', '境', '墓', '壇', '外', '大', '天', '奉', '契', '好', '如', '子', '字', '安', '官', '害', '家', '寇', '寒', '封', '將', '尊', '層', '崇', '川', '巡', '帳', '常', '年', '床', '座', '弔', '張', '待', '後', '徐', '御', '德', '徹', '心', '忍', '志', '思', '恒', '恥', '懷', '成', '戶', '房', '所', '扁', '手', '承', '把', '捕', '摠', '播', '撻', '收', '敎', '敗', '散', '數', '文', '方', '日', '旱', '明', '星', '晩', '更',

위에서 살펴볼 수 있듯이 한글이 아닌 문자는 특수문자, 숫자, 한자가 대부분이지만, 여기 속하지 않는 수상한 문자도 있다.

In [9]:
spy = '\ue13d'
print(spy)




이 문자는 HWP 워드프로세서에서 함초롱 글꼴로 볼 수 있다.

# 2. 한글 음절 분석하기

## 2.1. 음절을 자모로 분해하기

In [10]:
from unicodedata import name, normalize

In [11]:
def decompose(str):
  # 문자열을 NFKD 방식으로 정규화하기
  return # EDIT THIS LINE

In [12]:
ng0 = 'ㅇ'
ng1 = decompose('응')
for ng in (ng0, ng1):
  for char in ng:
    print(char, name(char))

ㅇ HANGUL LETTER IEUNG
ᄋ HANGUL CHOSEONG IEUNG
ᅳ HANGUL JUNGSEONG EU
ᆼ HANGUL JONGSEONG IEUNG


In [13]:
def print_jamo_name(syl:str):
  print(syl, name(syl))
  for jamo in decompose(syl):
    print(jamo, name(jamo))

In [14]:
print_jamo_name('뷁')

뷁 HANGUL SYLLABLE BWELG
ᄇ HANGUL CHOSEONG PIEUP
ᅰ HANGUL JUNGSEONG WE
ᆰ HANGUL JONGSEONG RIEUL-KIYEOK


In [15]:
print_jamo_name('아')

아 HANGUL SYLLABLE A
ᄋ HANGUL CHOSEONG IEUNG
ᅡ HANGUL JUNGSEONG A


In [16]:
def romanize(hangul):
  # 한글 문자의 로마자 표기를 얻기
  return # EDIT THIS LINE

In [17]:
print(romanize('ㄱ'))

KIYEOK


In [18]:
print(romanize('ㅢ'))

YI


In [19]:
print(romanize('ㅚ'))

OE


In [20]:
print(romanize('ㅟ'))

WI


## 2.2. 음절 유형 추출하기

In [21]:
import re

In [None]:
def is_letter(hangul):
    # 한글 문자가 LETTER 유형이면 True, 그렇지 않으면 False를 반환하기
    return 

def is_choseong(jamo):
    # 한글 문자가 초성 유형이면 True, 그렇지 않으면 False를 반환하기
    return

def is_jungseong(jamo):
    # 한글 문자가 중성 유형이면 True, 그렇지 않으면 False를 반환하기
    return

def is_jongseong(jamo):
    # 한글 문자가 종성 유형이면 True, 그렇지 않으면 False를 반환하기
    return

In [None]:
def get_onset_type(jamo):
  # LETTER 혹은 초성 유형의 문자의 유형을 반환하기
  # 자음 음가가 있으면 'C', 그렇지 않으면 ''를 반환하기
  return

In [None]:
GLIDES = re.compile(r'[WY]')

In [None]:
def get_nucleus_type(jamo):
  # LETTER 혹은 중성 유형의 문자의 유형을 반환하기
  # 단모음이면 'V', 활음이 있으면 'GV'를 반환하기
  return

In [None]:
def get_coda_type(jamo):
  # LETTER 혹은 종성 유형의 문자의 유형을 반환하기
  # 단자음이면 'C', 겹자음이면 'CC'를 반환하기
  return


In [None]:
def is_composed_syllable(char):
  # 주어진 문자가 한글 1음절이면 True, 그렇지 않으면 False를 반환하는 함수
  return

In [None]:
print(is_composed_syllable('앍'))
print(is_composed_syllable('ㅇ'))

True
False


In [None]:
print(is_composed_syllable(spy))

ValueError: no such name

In [None]:
def is_syllable(strings):
  # 주어진 문자열로 한글 1음절을 구성할 수 있으면 True, 그렇지 않으면 False를 반환하는 함수

In [None]:
print(is_syllable('ㅇ'))
print(is_syllable('앍'))
print(is_syllable(decompose('앍')))

False
True
True


In [None]:
print(is_syllable(spy))

False


In [None]:
syl = '꺍'
dec = decompose(syl)
onset, nucleus = ('', '') # EDIT THIS LINE
coda = ''  # EDIT THIS LINE

'ᆰ'

In [None]:
def get_syllable_type(syl):
  # 한글 음절 문자열을 받아서 CVC 등 음절 유형을 반환하는 함수
  return 

In [None]:
get_syllable_type(syl)

'CGVCC'

In [None]:
def get_syllable_types(string):
    # 문자열을 받아서 각 한글 문자들의 음절 유형으로 이루어진 튜플을 반환하는 함수
    return 

In [None]:
get_syllable_types('얇은')

('GVCC', 'VC')

# 3. 표준국어대사전 표제어 단어들의 음절 유형 추출하기

In [None]:
df['syllable_types'] = None # EDIT THIS LINE
df

Unnamed: 0_level_0,word,word_unit,word_type,pos,syllable_types
target_code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,가경-지,단어,한자어,명사,"(CV, CGVC, CV)"
2,가계-하다01,단어,혼종어,동사,"(CV, CGV, CV, CV)"
3,가계02,단어,한자어,명사,"(CV, CGV)"
4,가계-되다,단어,혼종어,동사,"(CV, CGV, CGV, CV)"
5,가계-하다03,단어,혼종어,동사,"(CV, CGV, CV, CV)"
...,...,...,...,...,...
534435,지체^장애,구,한자어,품사 없음,"(CV, CV, CVC, V)"
534436,신체^장애인,구,한자어,품사 없음,"(CVC, CV, CVC, V, VC)"
534437,지각06,단어,한자어,명사,"(CV, CVC)"
534438,대마^난류,단어,한자어,품사 없음,"(CV, CV, CVC, CGV)"


In [None]:
# 품사가 명사인 단어만 따로 저장하기
nouns_syllables = pd.DataFrame() # EDIT THIS LINE
nouns_syllables

Unnamed: 0_level_0,word,word_unit,word_type,pos,syllable_types
target_code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,가경-지,단어,한자어,명사,CV
1,가경-지,단어,한자어,명사,CGVC
1,가경-지,단어,한자어,명사,CV
3,가계02,단어,한자어,명사,CV
3,가계02,단어,한자어,명사,CGV
...,...,...,...,...,...
534432,기본-율,단어,한자어,명사,CV
534432,기본-율,단어,한자어,명사,CVC
534432,기본-율,단어,한자어,명사,GVC
534437,지각06,단어,한자어,명사,CV


In [None]:
# 음절 유형의 분포를 세어보기

CVC     307552
CV      276999
CGVC     44232
CGV      34491
VC       33698
V        31814
GVC      26172
GV       18753
CVCC      1032
VCC        127
GVCC         4
Name: syllable_types, dtype: int64

In [None]:
# 음절 유형의 분포를 단어 유형별로 각기 계산하기
table = pd.DataFrame() # EDIT THIS LINE
table

syllable_types,CGV,CGVC,CV,CVC,CVCC,GV,GVC,GVCC,V,VC,VCC
word_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
고유어,3100,2356,47855,48261,727,1156,963,4,6945,4979,98
외래어,1335,642,46011,13883,1,891,290,0,8513,2716,0
한자어,26457,37712,146582,204084,0,15390,22522,0,10984,22281,0
혼종어,3599,3522,36551,41324,304,1316,2397,0,5372,3722,29


In [None]:
# 단어 유형별 음절 유형의 출현 빈도를 백분율로 표현하기
table.apply(lambda x: x) # EDIT THIS LINEs

syllable_types,CGV,CGVC,CV,CVC,CVCC,GV,GVC,GVCC,V,VC,VCC
word_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
고유어,2.662224,2.02329,41.097008,41.445673,0.624334,0.992752,0.827007,0.003435,5.96424,4.275875,0.084161
외래어,1.797205,0.864274,61.940982,18.689588,0.001346,1.199483,0.390404,0.0,11.460381,3.656337,0.0
한자어,5.443693,7.759479,30.160161,41.991556,0.0,3.166588,4.634042,0.0,2.260027,4.584455,0.0
혼종어,3.66736,3.588897,37.245251,42.10891,0.309774,1.340996,2.442529,0.0,5.474036,3.792696,0.029551
