New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
속담 용례 수집 시스템 구축하기 (version 1) #4
Comments
직접 용례를 검색할 수 있는 사이트가 있고
한국어 말뭉치를 탐색할 수 있는 라이브러리도 있음
Korpora의 경우에는 데이터의 사이즈가 꽤나 크다. 그렇다면, 그냥 Elasticsearch로 korpora 전체를 인덱싱하고, inverted index로 검색을 하면 되지 않을까. |
@ArtemisDicoTiar 의 도움으로 각 속담 별 용례를 10개씩 정도 찾을 수 있게됨
@ArtemisDicoTiar 어떻게 수집했는지 나중에 여기에 코멘트 부탁. 여전히 찾을 수 있는 용례의 개수가 부족하다. 일단 두번째 프로토타입을 만들기 위해서는 충분할 것 같은데, 대규모로 수집하기에는 부족. 향후 #4 (comment) 여기에서 언급했듯이, 정말로 Korpora를 인덱싱 해야할 필요가 있을수도. |
Initial 데모용 속담 용례 검색 방법위 코멘트에서 언급된 '연세대 용례 검색 시스템'과 '우리말 샘' 사이트의 경우, 속담 전체를 검색으로 넣게 되면 검색이 없거나 찾기 어렵게 나옴. 그러던 중 국립국어원 언어정보 나눔터 사이트를 발견했고 해당 사이트에서는 속담 전체를 검색 및 검색 결과를 엑셀로 export가능하게 되어 있었음. import os
import pandas as pd
base_dir = './resource/examples'
files = os.listdir(base_dir)
base_df = pd.DataFrame()
for file in files:
cur_df = pd.read_excel(base_dir + '/' + file).fillna('')
cur_df['eg'] = cur_df['앞문맥'] + cur_df['검색어'] + cur_df['뒷문맥']
cur_df.drop(['출전', '앞문맥', '검색어', '뒷문맥', '번호'], axis=1, inplace=True)
base_df = base_df.append(cur_df)
base_df.to_csv(base_dir+'/../'+'egs.csv')
egs_df = pd.read_csv('./resource/egs.tsv', delimiter='\t')\
.drop('Unnamed: 0', axis=1)\
.sort_values(by='proverb')
egs_df.set_index('proverb', inplace=True)
egs_df.to_csv('./resource/egs.tsv', sep='\t')
|
가는 날이 장날이여 zzzzzㅋㅋㅋㅋㅋㅠㅠ |
새로운 도구로 파싱하는 중 @eubinecto |
검색할 수 있는 10개의 속담 별로, 100개의 용례를 찾아주길 바람. |
굿!!! 땡스! 일요일에 바로 적용해볼게~~!! |
일단 version 1 을 위해 필요한 데이터는 구축완료. |
왜?
속담의 용례를 가능한 많이 찾아야 한다.
The text was updated successfully, but these errors were encountered: