In [2]:
import string
from collections import defaultdict

test_id = "167795"

def parse_packet_number(line: str) -> int | None:
    """
    라인의 앞 8글자(HEX)를 리틀엔디언으로 해석해 정수 반환.
    이상하면 None.
    """
    header = line[:8]
    if len(header) != 8 or any(c not in string.hexdigits for c in header):
        return None
    try:
        return int.from_bytes(bytes.fromhex(header), byteorder="little", signed=False)
    except Exception:
        return None

# 번호 -> 첫 라인(대표), 중복 라인 리스트(선택)
first_line_by_no: dict[int, str] = {}
dups_by_no: defaultdict[int, list[str]] = defaultdict(list)

# 정렬 불가 라인(앞 8자 HEX 아님)
invalid_lines: list[str] = []

# 완전 동일한 라인 중복 제거를 원하면 활성화
DEDUP_BY_WHOLE_LINE = True
seen_lines = set()

# 번호가 없는 경우 자리표시자를 출력할지
WRITE_PLACEHOLDERS_FOR_MISSING = False  # True로 바꾸면 "MISSING n" 한 줄 출력

before_num = 0

with open(f"./{test_id}_recorded.txt", "r", encoding="utf-8") as rf:
    for line in rf:
        if DEDUP_BY_WHOLE_LINE:
            if line in seen_lines:
                continue
            seen_lines.add(line)

        pkt = parse_packet_number(line.rstrip("\n"))
        if pkt - before_num > 1:
            print(pkt)
        before_num = pkt
        if pkt is None:
            invalid_lines.append(line)
            continue

        if pkt not in first_line_by_no:
            first_line_by_no[pkt] = line
        else:
            # 같은 패킷번호가 여러 번 있으면 중복으로 보관
            dups_by_no[pkt].append(line)

# 쓸 범위를 결정(파일에 존재하는 최대 패킷번호까지)
max_no = max(first_line_by_no.keys(), default=0)

missing_numbers = []
written_count = 0

with open(f"./{test_id}_2_recorded.txt", "w", encoding="utf-8") as wf:
    for n in range(1, max_no + 1):
        line = first_line_by_no.get(n)
        if line is not None:
            wf.write(line)
            written_count += 1
        else:
            missing_numbers.append(n)
            if WRITE_PLACEHOLDERS_FOR_MISSING:
                wf.write(f"# MISSING {n}\n")

# 리포트 파일들(선택): 누락/중복/정렬불가 라인 기록
if missing_numbers:
    with open(f"./{test_id}_missing_numbers.txt", "w", encoding="utf-8") as mf:
        mf.write("\n".join(map(str, missing_numbers)) + "\n")

if dups_by_no:
    with open(f"./{test_id}_duplicate_numbers.txt", "w", encoding="utf-8") as df:
        for n in sorted(dups_by_no.keys()):
            df.write(f"[{n}] {len(dups_by_no[n])} extra duplicate(s)\n")

if invalid_lines:
    with open(f"./{test_id}_invalid_header_lines.txt", "w", encoding="utf-8") as ivf:
        ivf.writelines(invalid_lines)

print(f"총 {written_count}줄 작성 완료 (최대 패킷번호: {max_no}, 누락: {len(missing_numbers)}, 중복번호: {len(dups_by_no)}, 헤더이상: {len(invalid_lines)})")


376264
408775
531403
584682
총 604793줄 작성 완료 (최대 패킷번호: 604795, 누락: 2, 중복번호: 18, 헤더이상: 0)
