# Lí thuyết

## List
* Cấu trúc tuần tự, có thứ tự, mutable.
* Chứa phần tử dị loại.
* Truy cập bằng chỉ số, hỗ trợ slice và stride.
* Toán tử in duyệt tuyến tính.
* Ghép nối: +, mở rộng tại chỗ: extend, thêm đơn: append.
* Unpack hỗ trợ gán nhiều biến.

In [None]:
# tạo list
integer_list = [1, 2, 3]
heterogeneous_list = ["string", 0.1, True]
list_of_lists = [integer_list, heterogeneous_list, []]

# độ dài, tổng
list_length = len(integer_list)     # 3
list_sum    = sum(integer_list)     # 6

# truy cập và gán
x = [0,1,2,3,4,5,6,7,8,9]
zero = x[0]        # 0
nine = x[-1]       # 9
x[0] = -1          # [-1,1,2,3,4,5,6,7,8,9]

# slice và stride
first_three = x[:3]          # [-1,1,2]
three_to_end = x[3:]         # [3,4,5,6,7,8,9]
without_first_last = x[1:-1] # [1,2,3,4,5,6,7,8]
every_third = x[::3]         # [-1,3,6,9]
five_to_three = x[5:2:-1]    # [5,4,3]

# membership
_ = (1 in [1,2,3])  # True

# ghép nối và mở rộng
x = [1,2,3]
x.extend([4,5,6])   # [1,2,3,4,5,6]
y = [1,2,3] + [4,5,6]  # [1,2,3,4,5,6]

# append và unpack
x = [1,2,3]
x.append(0)   # [1,2,3,0]
a, b = [1, 2] # a=1, b=2
_, b = [1, 2] # bỏ a


## Tuple
* Giống list nhưng immutable.
* Khai báo bằng () hoặc không cần ngoặc khi gán nhiều.
* Dùng để trả về nhiều giá trị.
* Hỗ trợ hoán đổi biến gọn.

In [None]:
my_list = [1, 2]
my_tuple = (1, 2)
other_tuple = 3, 4

my_list[1] = 3      # OK
try:
    my_tuple[1] = 3 # lỗi vì immutable
except TypeError:
    pass

def sum_and_product(x, y):
    return (x + y), (x * y)

sp = sum_and_product(2, 3)  # (5, 6)
s, p = sum_and_product(5, 10)  # s=15, p=50

x, y = 1, 2
x, y = y, x  # hoán đổi

## Dict
* Bản đồ key -> value, tra cứu nhanh theo khóa.
* Khởi tạo bằng {} hoặc dict().
* Truy cập bằng [], an toàn bằng get.
* in kiểm tra khóa.
* Khóa phải hashable; không dùng list làm khóa.

In [None]:
empty_dict = {}
grades = {"Joel": 80, "Tim": 95}

joels_grade = grades["Joel"]           # 80
joel_has_grade = "Joel" in grades      # True
kates_grade = grades.get("Kate", 0)    # 0

grades["Tim"] = 99     # cập nhật
grades["Kate"] = 100   # thêm
num_students = len(grades)  # 3

tweet = {
    "user": "joelgrus",
    "text": "Data Science is Awesome",
    "retweet_count": 100,
    "hashtags": ["#data", "#science", "#datascience", "#awesome", "#yolo"],
}

tweet_keys = tweet.keys()
tweet_values = tweet.values()
tweet_items = tweet.items()

"user" in tweet          # True
"joelgrus" in tweet_values  # True


## defaultdict
* defaultdict(func_zero_arg) tự tạo giá trị mặc định khi thiếu khóa.
* Giảm rẽ nhánh khi đếm hoặc gom nhóm.

In [None]:
from collections import defaultdict

# đếm từ
document = ["a", "b", "a"]
word_counts = defaultdict(int)  # int() -> 0
for w in document:
    word_counts[w] += 1  # {'a':2, 'b':1}

# gom danh sách theo khóa
dd_list = defaultdict(list)   # list() -> []
dd_list[2].append(1)          # {2: [1]}

# lồng dict
dd_dict = defaultdict(dict)   # dict() -> {}
dd_dict["Joel"]["City"] = "Seattle"

# giá trị tùy biến
dd_pair = defaultdict(lambda: [0, 0])
dd_pair[2][1] = 1             # {2: [0,1]}


## Set
* Tập hợp phần tử phân biệt, không thứ tự, mutable.
* Kiểm tra thành viên rất nhanh.
* Dùng để loại trùng và các phép toán tập hợp.

In [None]:
# tạo set
primes_below_10 = {2, 3, 5, 7}
s = set()
s.add(1); s.add(2); s.add(2)  # {1,2}
len_s = len(s)                # 2
is_in = (2 in s)              # True

# membership nhanh hơn list khi lớn
stopwords_list = ["a", "an", "at", "yet", "you"]
stopwords_set = set(stopwords_list)
_ = ("zip" in stopwords_set)  # nhanh

# loại trùng
item_list = [1, 2, 3, 1, 2, 3]
item_set = set(item_list)                 # {1,2,3}
distinct_item_list = list(item_set)       # [1,2,3]

# Bài tập

In [None]:
import re
import argparse

# ===== Tiền xử lý chung =====
WORD_RE = re.compile(r"[^\W\d_]+", flags=re.UNICODE)

def tokenize(text):
    """Bóc tách thành dãy token chữ cái Unicode đã lower()."""
    return WORD_RE.findall(text.lower())

def make_ngrams(tokens, n):
    """Sinh n-gram bằng kỹ thuật zip trượt cửa sổ: zip(tokens, tokens[1:], ..., tokens[n-1:])."""
    if n <= 0 or len(tokens) < n:
        return []
    slices = [tokens[i:] for i in range(n)]
    return list(zip(*slices))

# ===== Bài 1: đếm n-gram (không dùng Counter) =====
def count_ngrams_map(tokens, n):
    """Đếm n-gram bằng dict; khoá là tuple từ."""
    counts = {}
    for gram in make_ngrams(tokens, n):
        counts[gram] = counts.get(gram, 0) + 1
    return counts

def most_common(counts, topk):
    """Sắp theo tần số giảm dần, rồi theo thứ tự từ vựng để ổn định."""
    return sorted(counts.items(), key=lambda kv: (-kv[1], kv[0]))[:topk]

def print_stats(counts, n, topk=30):
    print(f"\n=== {n}-gram ===")
    print(f"Số {n}-gram phân biệt: {len(counts)}")
    for gram, freq in most_common(counts, topk):
        print(f"{' '.join(gram)}\t{freq}")

# ===== Bài 2: giao n-gram giữa 2 văn bản =====
def overlap_counts(c1, c2):
    """Tiêu chí 1: kích thước giao set. Tiêu chí 2: tổng min(freq1, freq2) trên giao."""
    s1, s2 = set(c1.keys()), set(c2.keys())
    unique_overlap = len(s1 & s2)
    multiset_overlap = sum(min(c1[g], c2[g]) for g in (s1 & s2))
    return unique_overlap, multiset_overlap

def print_overlap_report(tokens1, tokens2, n, topk=20):
    c1, c2 = count_ngrams_map(tokens1, n), count_ngrams_map(tokens2, n)
    u_cnt, m_cnt = overlap_counts(c1, c2)
    print(f"\n=== Bài 2: Trùng {n}-gram giữa hai văn bản ===")
    print(f"Tiêu chí 1 (không tính trùng trong mỗi văn bản): {u_cnt}")
    print(f"Tiêu chí 2 (có tính trùng trong mỗi văn bản): {m_cnt}")
    commons = [(g, min(c1[g], c2[g])) for g in (c1.keys() & c2.keys())]
    commons.sort(key=lambda x: (-x[1], x[0]))
    print(f"Top giao (theo min tần số), tối đa {topk}:")
    for gram, w in commons[:topk]:
        print(f"{' '.join(gram)}\t{w}")

# ===== Bài 3: tìm vị trí xuất hiện của 1 từ (không dùng bisect) =====
# - Ranh giới câu: coi ., !, ? (kèm ngoặc/ngoặc kép kết thúc) là kết câu; lưu chỉ số kết thúc tăng dần.
# - Tìm mọi vị trí khớp \bword\b (IGNORECASE).
# - Xác định số câu bằng duyệt tuyến tính sent_ends; số dòng bằng đếm '\n' trước pos.
SENT_END_RE = re.compile(r'[.!?]+["”’)\]]*')

def build_sentence_boundaries(text):
    ends = [m.end() for m in SENT_END_RE.finditer(text)]
    if not ends or ends[-1] < len(text):
        ends.append(len(text))
    return ends  # danh sách chỉ số kết thúc câu tăng dần

def sentence_number_at(pos, sent_ends):
    """Không dùng bisect: quét tuần tự cho tới khi pos <= end."""
    s_no = 1
    for end in sent_ends:
        if pos <= end:
            return s_no
        s_no += 1
    return s_no  # fallback nếu pos > mọi end (không xảy ra vì có len(text))

def line_number_at(text, pos):
    """Dòng đánh số từ 1."""
    return text.count('\n', 0, pos) + 1

def find_word_positions(text, word):
    """Trả về danh sách (sentence_no, line_no) cho mọi lần xuất hiện của từ."""
    pat = re.compile(rf'\b{re.escape(word)}\b', flags=re.IGNORECASE | re.UNICODE)
    sent_ends = build_sentence_boundaries(text)
    out = []
    for m in pat.finditer(text):
        pos = m.start()
        s_no = sentence_number_at(pos, sent_ends)
        l_no = line_number_at(text, pos)
        out.append((s_no, l_no))
    return out

def print_positions(word, positions):
    print(f"\n=== Bài 3: Vị trí từ '{word}' ===")
    print(f"Số lần xuất hiện: {len(positions)}")
    for i, (s_no, l_no) in enumerate(positions, 1):
        print(f"{i}\tCâu {s_no}\tDòng {l_no}")

# ===== I/O =====
def read_text(path):
    with open(path, "r", encoding="utf-8") as f:
        return f.read()

if __name__ == "__main__":
    # CLI tối giản cho ba bài:
    # - file1: bắt buộc, dùng cho Bài 1 và làm nguồn cho Bài 3.
    # - --file2: tuỳ chọn, nếu có thì chạy Bài 2 trên 2-gram và 3-gram.
    # - --topk: số dòng top tần số hiển thị.
    # - --find: từ cần tìm trong file1 cho Bài 3.
    ap = argparse.ArgumentParser(description="Bài 1+2+3: n-gram và tìm vị trí từ (không dùng Counter, không dùng bisect)")
    ap.add_argument("file1", help="Văn bản 1 (>=1000 từ cho Bài 1)")
    ap.add_argument("--file2", help="Văn bản 2 (cùng chủ đề, cho Bài 2)")
    ap.add_argument("--topk", type=int, default=30, help="Số dòng top n-gram hiển thị")
    ap.add_argument("--find", help="Bài 3: từ cần tìm trong file1", default=None)
    args = ap.parse_args()

    text1 = read_text(args.file1)
    tokens1 = tokenize(text1)
    print(f"Tổng số từ văn bản 1: {len(tokens1)}")

    # Bài 1
    for n in (2, 3, 4):
        counts = count_ngrams_map(tokens1, n)
        print_stats(counts, n, topk=args.topk)

    # Bài 2
    if args.file2:
        text2 = read_text(args.file2)
        tokens2 = tokenize(text2)
        print(f"\nTổng số từ văn bản 2: {len(tokens2)}")
        for n in (2, 3):
            print_overlap_report(tokens1, tokens2, n, topk=min(20, args.topk))

    # Bài 3
    if args.find:
        positions = find_word_positions(text1, args.find)
        print_positions(args.find, positions)