### SPIMI (Single-Pass In-Memory Indexing)

* 알고리즘은 단일 패스에서 메모리 내에서 인덱스를 구축하는 방법

In [1]:
# 문서 토큰화 라이브러리
import nltk

In [6]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\sypar\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [2]:
from nltk.tokenize import word_tokenize

In [3]:
# 토큰화된 리스트를 입력으로 받고, 단어별로 역인덱스를 생성하여 반환
def spimi_invert(tokenized_docs):
    index = {}
    doc_id = 0
    
    for doc in tokenized_docs:
        for term in doc:
            if term not in index:
                index[term] = []
            if doc_id not in index[term]:
                index[term].append(doc_id)
                
        doc_id += 1
    
    return index

# 핵심: index 딕셔너리를 사용하여 각 단어의 포스팅 리스트를 유지하는 것
# 문서를 한 번 스캔하면서 각 단어를 처리하고
# 해당 단어가 인덱스에 없으면 새로운 엔트리를 생성하고 포스팅 리스트에 문서ID를 추가
# 이미 인덱스에 있는 단어인 경우에는 중복된 문서ID가 없도록 체크한 후 추가

In [4]:
# 예시 문장
documents = [
    "This is the first document.",
    "This document is the second document.",
    "And this is the third one.",
    "Is this the first document?"
]

In [7]:
# 문서 토큰화
tokenized_docs = [word_tokenize(doc.lower()) for doc in documents]
tokenized_docs

[['this', 'is', 'the', 'first', 'document', '.'],
 ['this', 'document', 'is', 'the', 'second', 'document', '.'],
 ['and', 'this', 'is', 'the', 'third', 'one', '.'],
 ['is', 'this', 'the', 'first', 'document', '?']]

In [8]:
# SPIMI 인덱싱 수행
index = spimi_invert(tokenized_docs)
index

{'this': [0, 1, 2, 3],
 'is': [0, 1, 2, 3],
 'the': [0, 1, 2, 3],
 'first': [0, 3],
 'document': [0, 1, 3],
 '.': [0, 1, 2],
 'second': [1],
 'and': [2],
 'third': [2],
 'one': [2],
 '?': [3]}

In [9]:
# 결과 출력
for term, postings in index.items():
    print(f"{term}: {postings}")

this: [0, 1, 2, 3]
is: [0, 1, 2, 3]
the: [0, 1, 2, 3]
first: [0, 3]
document: [0, 1, 3]
.: [0, 1, 2]
second: [1]
and: [2]
third: [2]
one: [2]
?: [3]
