# Lexicon

문서표현, Lexicon dictonary의 token이 해당문서에 있으면 1, 없으면 0으로 표현된 리스트

In [3]:
from konlpy.corpus import kobill

def getLexicon():
    lexicon = list()
    
    for docName in kobill.fileids():
        document = kobill.open(docName).read()
        
        for token in document.split():
            if token not in lexicon:
                lexicon.append(token)
                
    return lexicon

In [2]:
%timeit getLexicon()

108 ms ± 1.4 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [4]:
def getLexiconBySet():
    lexicon = list()
    
    for docName in kobill.fileids():
        document = kobill.open(docName).read()
        
        for token in document.split():
            lexicon.append(token)
            
    return list(set(lexicon))
        

In [6]:
lexicon = getLexiconBySet()
lexicon

['외교적',
 '제30조제2항제1호',
 '조승수ㆍ최문순ㆍ조영택',
 '액은',
 '②',
 '가능',
 '대책에도',
 '임무수행능력',
 '사유를',
 '함(안',
 '의견수렴',
 '제12조제4항을',
 '전투력',
 '파견계획',
 '16',
 '34,712',
 '예산조치',
 '비용추계에',
 '9899',
 '해역에서',
 '참여의',
 '나아가',
 '출입국관리',
 '의원(10인)',
 '결의',
 '하의',
 '기간',
 '「민방위기본법」,',
 '부과·징수에',
 '곤란하',
 '중개사무소를',
 '명,',
 '경',
 '정보력의',
 '정부가',
 '운용',
 '각',
 'ㆍ군수ㆍ구청장에게',
 '거치기',
 '전술통제함.',
 '나은',
 '다.”로',
 '취지와',
 '“․제20호',
 '9890',
 '--------------------.',
 '과정을',
 '신설).',
 '내에서',
 '제17호까지를',
 '22.',
 '내용확인을',
 '문제가',
 '대방이',
 '행정예고를',
 '과도정부',
 '44조제1항제7호).',
 '부분',
 '활동을',
 '해할',
 '3년',
 '발생한다고',
 '요하다고',
 '위한',
 '아',
 '결',
 '「비상대비자원',
 '물론,',
 '여성가족부령으로',
 '하고',
 '40%와',
 '파견경위',
 '라',
 '차이는',
 '포함)',
 '제',
 '되어',
 '중인',
 '그',
 '5',
 '혼자',
 '아랍에미리트(UAE)군',
 '확인‧점검',
 '확대됨에',
 '건전한',
 '사.',
 '수립하',
 '명시하여',
 '2010년',
 '職을',
 '화,',
 '⑥',
 '치를',
 'p',
 '“정책등”이라',
 '전”을',
 '결혼중개업의',
 '재결·결정에',
 '수가',
 '한',
 '돌보는',
 '한다)의',
 '정착할',
 '유엔이',
 '개정한다.',
 '입법추진일정을',
 '바.',
 '4년으',
 '①----------',
 '종류가',
 '그리고',
 '

In [5]:
def getDocRepr(lexicon):
    docList = list() # 문서목록
    docRepr = list() # 문서표현 of BOW의 집합 => 문서갯수만큼
    
    for docName in kobill.fileids(): # 문서 한개 열고
        document = kobill.open(docName).read()
        
        docList.append(docName) # 문서목록에 추가
        docVector = list(0 for _ in range(len(lexicon)))
        # 문서표현(BOW) = [0] * 단어의 갯수(|Lexicon|)
        
        for token in document.split(): # 문서내 단어
            if token in lexicon: # 사전에 있는지
                docVector[lexicon.index(token)] = 1
                # 사전에 있으면, 사전의 단어 위치(index)에 1
                
        docRepr.append(docVector) # 문서 Vector Append
                
    return docList, docRepr

In [6]:
def getDocReprByDict(lexicon):
    docRepr = dict()
    # key = 문서
    # value = BOW => list X, dict
    
    for docName in kobill.fileids():
        document = kobill.open(docName).read()
        
        docRepr[docName] = dict()
        
        for token in document.split(): 
            if token in lexicon: 
                docRepr[docName][lexicon.index(token)] = 1
    
    return docRepr

In [9]:
%timeit getDocReprByDict(lexicon)

341 ms ± 8.33 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [10]:
docRepr = getDocReprByDict(lexicon)

In [12]:
docRepr['1809890.txt'][23], lexicon[23]

(1, '작성하면')

In [13]:
from collections import defaultdict

def getDocReprByDefaultDict(lexicon):
    docRepr = defaultdict(lambda: defaultdict(int))
    
    for docName in kobill.fileids():
        document = kobill.open(docName).read()
 
        for token in document.split(): 
            docRepr[docName][token] = 1
    
    return docRepr

In [14]:
docRepr = getDocReprByDefaultDict(lexicon)

In [15]:
docRepr['1809890.txt']

defaultdict(int,
            {'지방공무원법': 1,
             '일부개정법률안': 1,
             '(정의화의원': 1,
             '대표발의': 1,
             ')': 1,
             '의': 1,
             '안': 1,
             '번': 1,
             '호': 1,
             '9890': 1,
             '발의연월일': 1,
             ':': 1,
             '2010.': 1,
             '11.': 1,
             '12.': 1,
             '발': 1,
             '자': 1,
             '정의화․이명수․김을동': 1,
             '이사철․여상규․안규백': 1,
             '황영철․박영아․김정훈': 1,
             '김학송': 1,
             '의원(10인)': 1,
             '제안이유': 1,
             '및': 1,
             '주요내용': 1,
             '초등학교': 1,
             '저학년의': 1,
             '경우에도': 1,
             '부모의': 1,
             '따뜻한': 1,
             '사랑과': 1,
             '보살핌이': 1,
             '필요': 1,
             '한': 1,
             '나이이나,': 1,
             '현재': 1,
             '공무원이': 1,
             '자녀를': 1,
             '양육하기': 1,
             '위하여': 1,
             '육아휴직을': 1,
      

In [16]:
# invertedDocument (역문헌구조, 어휘)
def invertedDocument(DTM):
    TDM = defaultdict(lambda: defaultdict(int))
    
    # Only python => Dictionary | Posting DB
    # Dictionary => term, fp (Hash in memory)
    # Posing => struct(docid, freq, next=fp) (FileDB)
    
    for docName, docVector in DTM.items():  
        for term, freq in docVector.items():
            TDM[term][docName] = freq
            
    return TDM

In [17]:
TDM = invertedDocument(docRepr)

In [18]:
TDM["국회"], TDM["의원"]

(defaultdict(int, {'1809897.txt': 1, '1809898.txt': 1}),
 defaultdict(int, {'1809896.txt': 1}))

In [19]:
TDM["국회"] or TDM["의원"]

defaultdict(int, {'1809897.txt': 1, '1809898.txt': 1})