# 오늘의 목표

1. XML 파일의 구조를 이해하고 beautifulsoup(bs4) 라이브러리를 통해 내부 정보를 추출할 수 있다.
2. 유니코드 인코딩에서 한글 문자를 어떻게 표현하고 처리하는지 설명할 수 있다.

# 오늘 할 일

한글 음절 구조 추출

+ 뷁 --> CGVCC
+ 아 --> V


1. 파일명 변경: '전체 내려받기_표준국어대사전_xml_20231105.zip'
--> `stdict_xml_20231105.zip`
2. 파일 이동: `LDS2023/data/` 폴더로 이동

In [1]:
%pip install -U pip pyproject
%pip install -U bs4 lxml pandas

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.
Defaulting to user installation because normal site-packages is not writeable
Collecting lxml
  Using cached lxml-4.9.3.tar.gz (3.6 MB)
  Preparing metadata (setup.py) ... [?25ldone
Collecting pandas
  Using cached pandas-2.0.3-cp38-cp38-macosx_10_9_x86_64.whl.metadata (18 kB)
Using cached pandas-2.0.3-cp38-cp38-macosx_10_9_x86_64.whl (11.7 MB)
Building wheels for collected packages: lxml
  Building wheel for lxml (setup.py) ... [?25lerror
  [1;31merror[0m: [1msubprocess-exited-with-error[0m
  
  [31m×[0m [32mpython setup.py bdist_wheel[0m did not run successfully.
  [31m│[0m exit code: [1;36m1[0m
  [31m╰─>[0m [31m[212 lines of output][0m
  [31m   [0m Building lxml version 4.9.3.
  [31m   [0m Building without Cython.
  [31m   [0m Building against libxml2 2.9.4 and libxslt 1.1.29
  [31m   [0m running bdist_wheel
  [31m

In [2]:
import zipfile # 압축 파일 읽기
from bs4 import BeautifulSoup # xml 객체 처리하기
import pandas as pd

## zip 파일 읽기

In [3]:
zipfilename = '../data/stdict_xml_20231105.zip'

In [4]:
z = zipfile.ZipFile(zipfilename)
filenames = z.namelist()
print(filenames)
print(len(filenames))

['1228490_75000.xml', '1228490_145000.xml', '1228490_110000.xml', '1228490_325000.xml', '1228490_340000.xml', '1228490_90000.xml', '1228490_175000.xml', '1228490_130000.xml', '1228490_355000.xml', '1228490_35000.xml', '1228490_210000.xml', '1228490_125000.xml', '1228490_170000.xml', '1228490_95000.xml', '1228490_160000.xml', '1228490_10000.xml', '1228490_85000.xml', '1228490_385000.xml', '1228490_315000.xml', '1228490_395000.xml', '1228490_270000.xml', '1228490_365000.xml', '1228490_70000.xml', '1228490_150000.xml', '1228490_60000.xml', '1228490_350000.xml', '1228490_55000.xml', '1228490_275000.xml', '1228490_40000.xml', '1228490_370000.xml', '1228490_255000.xml', '1228490_415000.xml', '1228490_310000.xml', '1228490_330000.xml', '1228490_375000.xml', '1228490_135000.xml', '1228490_15000.xml', '1228490_260000.xml', '1228490_390000.xml', '1228490_265000.xml', '1228490_120000.xml', '1228490_100000.xml', '1228490_400000.xml', '1228490_45000.xml', '1228490_155000.xml', '1228490_345000.xml',

In [5]:
fname = filenames[0]
f = z.open(fname)
text = f.read().decode('utf-8')
print(len(text))

6931925


In [6]:
text.splitlines()[:10]

['<?xml version="1.0" encoding="UTF-8"?>',
 '<channel>',
 '\t<title>사전 검색</title>',
 '\t<link>https:stdict.korean.go.kr</link>',
 '\t<description>사전 검색 결과</description>',
 '\t<lastBuildDate>20231105 02:04:01</lastBuildDate>',
 '\t<total>434870</total>',
 '\t<item>',
 '\t\t<target_code>64517</target_code>',
 '\t\t<word_info>']

In [7]:
# xml 파일 -> soup 객체
soup = BeautifulSoup(text, features='xml')
soup # <item> 태그 안에 단어가 들어있는 것 같다.

<?xml version="1.0" encoding="utf-8"?>
<channel>
<title>사전 검색</title>
<link>https:stdict.korean.go.kr</link>
<description>사전 검색 결과</description>
<lastBuildDate>20231105 02:04:01</lastBuildDate>
<total>434870</total>
<item>
<target_code>64517</target_code>
<word_info>
<word>낯-익다</word>
<word_unit>단어</word_unit>
<word_type>고유어</word_type>
<original_language_info>
<original_language>null</original_language>
<language_type>고유어</language_type>
</original_language_info>
<pronunciation_info>
<pronunciation>난닉따</pronunciation>
</pronunciation_info>
<conju_info>
<conjugation_info>
<conjugation>낯익어</conjugation>
</conjugation_info>
</conju_info>
<conju_info>
<conjugation_info>
<conjugation>낯익으니</conjugation>
</conjugation_info>
</conju_info>
<relation_info>
<word>낯익은 도끼에 발등 찍힌다</word>
<type>속담</type>
<link_target_code>520331</link_target_code>
<link>https://stdict.korean.go.kr/search/searchView.do?word_no=520331&amp;searchKeywordTo=1</link>
</relation_info>
<lexical_info>
<word>낯-설다</word>
<unit

In [8]:
print(type(soup))

<class 'bs4.BeautifulSoup'>


xml 객체에서 특정한 tag 정보에 접근하기

```
bs4.BeautifulSoup.find(<tag name>)
```

In [9]:
item0 = soup.find('item') # 여러 item 중 제일 먼저 나온 것을 보여줌.
item0

<item>
<target_code>64517</target_code>
<word_info>
<word>낯-익다</word>
<word_unit>단어</word_unit>
<word_type>고유어</word_type>
<original_language_info>
<original_language>null</original_language>
<language_type>고유어</language_type>
</original_language_info>
<pronunciation_info>
<pronunciation>난닉따</pronunciation>
</pronunciation_info>
<conju_info>
<conjugation_info>
<conjugation>낯익어</conjugation>
</conjugation_info>
</conju_info>
<conju_info>
<conjugation_info>
<conjugation>낯익으니</conjugation>
</conjugation_info>
</conju_info>
<relation_info>
<word>낯익은 도끼에 발등 찍힌다</word>
<type>속담</type>
<link_target_code>520331</link_target_code>
<link>https://stdict.korean.go.kr/search/searchView.do?word_no=520331&amp;searchKeywordTo=1</link>
</relation_info>
<lexical_info>
<word>낯-설다</word>
<unit>어휘</unit>
<type>반대말</type>
<link_target_code>403933</link_target_code>
<link>https://stdict.korean.go.kr/search/searchView.do?word_no=403933&amp;searchKeywordTo=3</link>
</lexical_info>
<pos_info>
<pos_code>64517001

관심 있는 태그
+ target_code
+ word
+ word_unit
+ word_type
+ pos

In [10]:
print(type(item0))

<class 'bs4.element.Tag'>


In [11]:
tags = ('target_code', 'word', 'word_unit', 'word_type', 'pos')

for tag in tags:
    print(item0.find(tag))

<target_code>64517</target_code>
<word>낯-익다</word>
<word_unit>단어</word_unit>
<word_type>고유어</word_type>
<pos>형용사</pos>


모든 item을 찾고자 할 때:

```
bs4.BeautifulSoup.find_all(<tag name>)
```

In [12]:
items = soup.find_all('item')
print(len(items))

5000


In [13]:
item0 = items[0]
item0.find(tags[0]) # <tag>content</tag>

<target_code>64517</target_code>

`bs4.Element.tag` 객체에서 content만 가져오기

```
bs4.Element.tag.text
```

In [14]:
print(item0.find(tags[0]).text)

64517


In [15]:
print(type(item0.find('candy')))

<class 'NoneType'>


In [16]:
def get_content(soup, tag):
    find = soup.find(tag)
    # soup 객체에 tag 태그가 있는 경우
    if find:
        return find.text
    # 없는 경우
    else:
        return ''

In [17]:
print(get_content(item0, 'word'))

낯-익다


In [18]:
def to_dict(item, tags=tags):
    # {tag: content} 꼴의 dict
    return {tag: get_content(item, tag) for tag in tags}

In [19]:
to_dict(item0)

{'target_code': '64517',
 'word': '낯-익다',
 'word_unit': '단어',
 'word_type': '고유어',
 'pos': '형용사'}

In [20]:
for item in items:
    try:
        to_dict(item)
    except:
        print(item)
        break

### BeautifulSoup --> DataFrame

In [21]:
df5000 = pd.DataFrame([to_dict(item) for item in items])
df5000

Unnamed: 0,target_code,word,word_unit,word_type,pos
0,64517,낯-익다,단어,고유어,형용사
1,520331,낯익은 도끼에 발등 찍힌다,속담,,구
2,64518,낯익-히다,단어,고유어,동사
3,64570,낯-짝,단어,고유어,명사
4,520337,낯짝(이) 두껍다,관용구,,구
...,...,...,...,...,...
4995,68596,노-자영,단어,한자어,명사
4996,68597,노자-온,단어,한자어,명사
4997,68598,노자-작,단어,한자어,명사
4998,509623,노자-푼,단어,혼종어,명사


In [22]:
f.close()
z.close()

지금까지 국립국어대사전 표제어로 이루어진 XML 파일로부터 필요한 정보를 추출하여 하나의 데이터프레임을 만들어 보았다.

이제 압축 파일 안에 들어 있는 모든 XML 파일을 같은 방식으로 처리해 보자.

In [23]:
from tqdm import tqdm

In [24]:
# 데이터프레임 초기화
df = pd.DataFrame()

# zip 형식의 압축 파일 처리하기
with zipfile.ZipFile(zipfilename) as z:

  # 압축 파일에 들어 있는 모든 파일에 대한 반복문
  for fname in tqdm(z.namelist()):
    
    # 만일 xml 파일이 아니면 읽지 않고 다음 파일로 넘어가기
    
    # 파일을 열어서
    with z.open(fname) as f:
      # 파일 내용을 문자열로 읽기
      # 문자열을 BeautifulSoup 객체로 처리하기
      # 'item' 태그를 모두 찾기
      # 아이템들을 dict 자료형으로 변환한 뒤 데이터프레임으로 변환하기
      
      # 데이터프레임 업데이트
      pass

  0%|          | 0/87 [00:00<?, ?it/s]

100%|██████████| 87/87 [15:33<00:00, 10.73s/it]


위에서 만든 데이터프레임의 모습을 살펴보자.

모두 434870개의 행으로 이루어져 있다.

In [25]:
df

Unnamed: 0,target_code,word,word_unit,word_type,pos
0,64517,낯-익다,단어,고유어,형용사
1,520331,낯익은 도끼에 발등 찍힌다,속담,,구
2,64518,낯익-히다,단어,고유어,동사
3,64570,낯-짝,단어,고유어,명사
4,520337,낯짝(이) 두껍다,관용구,,구
...,...,...,...,...,...
4995,202235,승습,단어,한자어,명사
4996,202236,승습-군,단어,한자어,명사
4997,452910,승습-하다,단어,혼종어,동사
4998,202237,승승01,단어,한자어,명사


데이터프레임의 각 column들의 값을 요약해 보자.

In [26]:
# DO SOMETHING HERE

Unnamed: 0,target_code,word,word_unit,word_type,pos
count,434870,434870,434870,434870,434870
unique,434870,434870,4,5,16
top,64517,낯-익다,단어,한자어,명사
freq,1,1,360629,235445,268627


앞서 데이터프레임을 살펴본 결과, 단어가 배열된 순서에 일정한 규칙이 없는 것 같다.

target_code 값을 기준으로 행들을 정렬해 보자.

In [27]:
# target_code 값을 데이터프레임의 인덱스로 설정하기
# 인덱스의 자료형을 int로 설정하기
# 인덱스 값을 기준으로 행들을 정렬하기
df

Unnamed: 0_level_0,word,word_unit,word_type,pos
target_code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,가경-지,단어,한자어,명사
2,가계-하다01,단어,혼종어,동사
3,가계02,단어,한자어,명사
4,가계-되다,단어,혼종어,동사
5,가계-하다03,단어,혼종어,동사
...,...,...,...,...
534435,지체^장애,구,한자어,품사 없음
534436,신체^장애인,구,한자어,품사 없음
534437,지각06,단어,한자어,명사
534438,대마^난류,단어,한자어,품사 없음


마지막으로, 정렬된 데이터프레임을 csv 파일로 저장하자.

In [28]:
csvfilename = zipfilename.replace('.zip', '.csv')

df.to_csv(csvfilename)