In [1]:
#@title Install required libraries
!pip -q install transformers accelerate sentence-transformers --upgrade
!pip -q install python-docx pdfplumber


[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.8/42.8 kB[0m [31m3.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.5/48.5 kB[0m [31m5.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m253.0/253.0 kB[0m [31m22.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.0/60.0 kB[0m [31m7.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.6/5.6 MB[0m [31m72.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.8/2.8 MB[0m [31m68.7 MB/s[0m eta [36m0:00:00[0m
[?25h

In [2]:
#@title Runtime config
EMBED_MODEL_NAME    = "sentence-transformers/paraphrase-MiniLM-L6-v2" #@param ["sentence-transformers/paraphrase-MiniLM-L6-v2", "intfloat/multilingual-e5-base", "BAAI/bge-m3"] {allow-input: true}
LLM_MODEL_NAME      = "K-intelligence/Midm-2.0-Base-Instruct"
MAX_NEW_TOKENS_LLM  = 900   # 필요에 따라 조정

print("LLM :", LLM_MODEL_NAME)
print("EMB :", EMBED_MODEL_NAME)


LLM : K-intelligence/Midm-2.0-Base-Instruct
EMB : sentence-transformers/paraphrase-MiniLM-L6-v2


In [3]:
#@title Adapters: HF LLM & HF Embedding
from transformers import AutoModelForCausalLM, AutoTokenizer
from sentence_transformers import SentenceTransformer
import torch
from typing import List


# --- Replace your HFLLMAdapter with this Midm-safe version ---
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch, re

class HFLLMAdapter:
    """
    Works with K-intelligence/Midm-2.0-Base-Instruct (and most chatty Causal LMs).
    - Removes token_type_ids if present (Midm doesn't use it)
    - Uses chat template when available
    - Deterministic decoding (do_sample=False)
    """
    def __init__(self, model_name: str = "K-intelligence/Midm-2.0-Base-Instruct", max_new_tokens: int = 900):
        self.model_name = model_name
        self.tok = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
        self.model = AutoModelForCausalLM.from_pretrained(
            model_name,
            torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
            device_map="auto",
            trust_remote_code=True,
        )
        self.max_new_tokens = max_new_tokens

        # Some models have no pad_token; use eos as pad to avoid warnings.
        if self.model.config.pad_token_id is None and self.tok.eos_token_id is not None:
            self.model.config.pad_token_id = self.tok.eos_token_id

        # whether we can format with chat template
        self._has_chat_template = hasattr(self.tok, "apply_chat_template")

    def _format_input(self, prompt: str) -> str:
        if self._has_chat_template:
            # System + user messages → add_generation_prompt=True makes the model continue as assistant
            msgs = [
                {"role": "system", "content": "You are a JSON-only generator. Return ONLY a single JSON object."},
                {"role": "user", "content": prompt},
            ]
            return self.tok.apply_chat_template(
                msgs, tokenize=False, add_generation_prompt=True
            )
        # Fallback: plain prompt
        return prompt

    def complete(self, prompt: str, **gen_kwargs) -> str:
        input_text = self._format_input(prompt)
        inputs = self.tok(input_text, return_tensors="pt")
        # 🚫 Midm doesn't accept token_type_ids → drop it
        inputs.pop("token_type_ids", None)
        inputs = {k: v.to(self.model.device) for k, v in inputs.items()}

        out = self.model.generate(
            **inputs,
            do_sample=False,
            max_new_tokens=gen_kwargs.get("max_tokens", self.max_new_tokens),
            eos_token_id=self.tok.eos_token_id,
            pad_token_id=self.model.config.pad_token_id,
        )
        text = self.tok.decode(out[0], skip_special_tokens=True)

        # If the decoded text still contains the prompt prefix, strip it.
        if text.startswith(input_text):
            text = text[len(input_text):].lstrip()

        # Best-effort: if it didn't start with JSON, try to extract the outer {...}
        m = re.search(r"\{.*\}", text, flags=re.DOTALL)
        return m.group(0) if m else text


class HFSentenceEmbedAdapter:
    """
    embedding 모듈의 EmbeddingClient(embed)와 호환.
    - 기본 모델은 소형/빠른 ST 모델.
    """
    def __init__(self, model_name="sentence-transformers/paraphrase-MiniLM-L6-v2"):
        self.model = SentenceTransformer(model_name)

    def embed(self, texts: List[str], **kwargs) -> List[List[float]]:
        embs = self.model.encode(texts, convert_to_numpy=True, normalize_embeddings=True)
        return [e.tolist() for e in embs]


In [4]:
#@title Upload documents to ingest (txt, docx, pdf, hwpx 등)
from google.colab import files
from pathlib import Path

print("인제스트할 문서 파일들을 선택하세요.")
uploaded_docs = files.upload()  # 여러 개 선택 가능
doc_paths = []
for name, data in uploaded_docs.items():
    p = Path(name)
    with open(p, "wb") as f:
        f.write(data)
    doc_paths.append(str(p.resolve()))

print("✅ 업로드 완료:", doc_paths)


인제스트할 문서 파일들을 선택하세요.


Saving sample.txt to sample.txt
✅ 업로드 완료: ['/content/sample.txt']


In [5]:
#@title Run full pipeline on uploaded documents
import importlib, json, time
from pathlib import Path

file_reader   = importlib.import_module("file_reader")
text_chunker  = importlib.import_module("text_chunker")
embedding_mod = importlib.import_module("embedding")

# 모델 초기화
llm = HFLLMAdapter(LLM_MODEL_NAME, max_new_tokens=MAX_NEW_TOKENS_LLM)
embedder = HFSentenceEmbedAdapter(EMBED_MODEL_NAME)

all_records = []
t0 = time.time()

for path in doc_paths:
    print(f"\n=== Processing: {path} ===")
    # 1) 파일 로드
    try:
        text = file_reader.read_file(path)
    except Exception as e:
        print(f"[ERR] read_file failed: {e}")
        continue

    if not isinstance(text, str) or not text.strip():
        print("[WARN] Empty text; skipping.")
        continue
    print(f"[OK] Loaded text: {len(text)} chars")

    # 2) LLM 기반 청크 분할
    try:
        chunk_result = text_chunker.llm_guided_sentence_chunk(
            text,
            llm=llm,
            max_sentences_per_chunk=20,
            system_hint="논리/주제 전환 기준으로 5~20문장씩 묶고, 오직 JSON만 출력하세요."
        )
    except Exception as e:
        print(f"[ERR] chunking failed: {e}")
        continue

    if not hasattr(chunk_result, "chunks") or len(chunk_result.chunks) == 0:
        print("[WARN] No chunks; skipping.")
        continue

    print(f"[OK] Chunks: {len(chunk_result.chunks)}")

    # 3) 임베딩
    chunks = [c.text for c in chunk_result.chunks]
    offsets = [{
        "chunk_index": c.chunk_index,
        "char_start": c.char_start,
        "char_end": c.char_end,
        "word_start": c.word_start,
        "word_end": c.word_end
    } for c in chunk_result.chunks]

    try:
        records = embedding_mod.build_embeddings(
            chunks=chunks,
            file_path=path,
            filetype=Path(path).suffix.lstrip(".").lower() or "unknown",
            offsets=offsets,
            embedder=embedder
        )
    except Exception as e:
        print(f"[ERR] embedding failed: {e}")
        continue

    print(f"[OK] Embeddings: {len(records)} vectors, dim={len(records[0].vector) if records else 0}")
    all_records.extend(records)

t1 = time.time()
print(f"\n=== DONE: {len(all_records)} records from {len(doc_paths)} files in {t1-t0:.2f}s ===")

# 4) 저장 (JSONL)
out_path = Path("embeddings.jsonl")
with open(out_path, "w", encoding="utf-8") as f:
    for r in all_records:
        f.write(json.dumps({
            "vector": r.vector,
            "text": r.text,
            "meta": {
                "file_path": r.meta.file_path,
                "filetype": r.meta.filetype,
                "chunk_index": r.meta.chunk_index,
                "char_start": r.meta.char_start,
                "char_end": r.meta.char_end,
                "word_start": r.meta.word_start,
                "word_end": r.meta.word_end
            }
        }, ensure_ascii=False) + "\n")

print(f"📝 Saved embeddings to: {out_path.resolve()}")


tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.json:   0%|          | 0.00/10.4M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/449 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/748 [00:00<?, ?B/s]

`torch_dtype` is deprecated! Use `dtype` instead!


model.safetensors.index.json: 0.00B [00:00, ?B/s]

Fetching 5 files:   0%|          | 0/5 [00:00<?, ?it/s]

model-00003-of-00005.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00005.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00002-of-00005.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00001-of-00005.safetensors:   0%|          | 0.00/4.88G [00:00<?, ?B/s]

model-00005-of-00005.safetensors:   0%|          | 0.00/3.37G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/185 [00:00<?, ?B/s]



modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/314 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

The following generation flags are not valid and may be ignored: ['temperature', 'top_p', 'top_k']. Set `TRANSFORMERS_VERBOSITY=info` for more details.



=== Processing: /content/sample.txt ===
[OK] Loaded text: 2167 chars
=== RAW LLM OUTPUT (first try) ===
{
  "chunks": [
    {"first_sentence_index": int, "last_sentence_index": int, "title": "short title"},
   ...
  ]
}

Sentences (preview):
[0] 인공지능은 이제 더 이상 연구실 안의 기술이 아닙니다.
[1] 우리는 매일같이 인공지능이 적용된 제품과 서비스를 사용하고 있습니다.
[2] 스마트폰의 얼굴 인식 기능, 온라인 쇼핑의 맞춤형 추천, 내비게이션의 교통 예측까지 모두 인공지능이 기여하고 있습니다.
[3] 이러한 기술은 이미 생활 깊숙이 들어와 있으며, 많은 사람들은 이를 당연하게 여기기 시작했습니다.
[4] 기술이 자연스럽게 생활 속에 녹아드는 순간, 인공지능은 하나의 배경 기술로 자리 잡습니다.
[5] 이처럼 보이지 않게 작동하는 기술일수록 사회에 미치는 영향은 더 큽니다.
[6] 특히 청소년 세대는 태어날 때부터 인공지능 환경에 노출되어 있어 새로운 기술을 더욱 자연스럽게 받아들이고 있습니다.
[7] 인공지능은 세대 간 기술 격차를 줄이기도 하지만 동시에 확대시키기도 합니다.
[8] 어떤 사람들은 인공지능에 익숙하지만, 다른 사람들은 여전히 기술 적응에 어려움을 겪습니다.
[9] 따라서 교육과 지원 정책은 필수적입니다.
[10] 하지만 인공지능의 발전이 긍정적인 효과만을 가져오는 것은 아닙니다.
[11] 자동화로 인해 많은 직업이 변화하거나 사라질 위험에 처해 있습니다.
[12] 예를 들어, 단순 반복 업무를 수행하던 직군은 인공지능 시스템에 의해 대체될 가능성이 큽니다.
[13] 기업 입장에서는 효율성이 높아지지만, 노동자 입장에서는 불안정성이 증가합니다.
[14] 이러한 변화는 산업 구조와 노동 시장에 큰 파장을 일으킵니다.
[15] 동시에 새로운 직업이 생

In [6]:
#@title (Optional) Preview a few records
import json
from pathlib import Path
from itertools import islice

path = Path("embeddings.jsonl")
if not path.exists():
    print("embeddings.jsonl 이 없습니다. 이전 셀을 먼저 실행하세요.")
else:
    with open(path, "r", encoding="utf-8") as f:
        for i, line in enumerate(islice(f, 5)):
            row = json.loads(line)
            preview = row["text"][:120].replace("\n", " ")
            print(f"[{i}] {row['meta']['filetype']} #{row['meta']['chunk_index']} | {preview}")


[0] txt #0 | 인공지능은 이제 더 이상 연구실 안의 기술이 아닙니다. 우리는 매일같이 인공지능이 적용된 제품과 서비스를 사용하고 있습니다. 스마트폰의 얼굴 인식 기능, 온라인 쇼핑의 맞춤형 추천, 내비게이션의 교통 예측까지 모두 
[1] txt #1 | 예를 들어, 단순 반복 업무를 수행하던 직군은 인공지능 시스템에 의해 대체될 가능성이 큽니다. 기업 입장에서는 효율성이 높아지지만, 노동자 입장에서는 불안정성이 증가합니다. 이러한 변화는 산업 구조와 노동 시장에 큰
[2] txt #2 | 또한 범죄 예측 시스템이나 신용 평가 시스템에서도 편향이 발견되었습니다. 이러한 문제는 기술 그 자체의 문제가 아니라, 사회적 맥락이 반영된 결과입니다. 따라서 인공지능의 설계 단계에서부터 편향을 줄이는 노력이 필요
[3] txt #3 | 자율 무기 시스템, 사이버 전쟁 기술 등이 그 예입니다. 이러한 상황은 새로운 국제 규범과 협약을 요구합니다. 그렇지 않으면 인공지능은 갈등을 심화시키는 요인이 될 수 있습니다. 동시에 인공지능은 국제 협력의 기회도
[4] txt #4 | 기술은 목적이 아니라 수단이어야 합니다. 인공지능이 인류의 미래에 긍정적으로 기여하려면, 우리가 기술의 방향성을 주도적으로 결정해야 합니다. 이러한 논의는 단순한 기술적 논의가 아니라 사회적 합의와 가치의 문제입니다
