## **Lecture 1**: Getting Started with Python, VS code and Jupyter Notebook

*Contents*
1. Objectives
2. Installing Python
3. Installing Visual Studio Code (VS Code)
4. Installing and Using Python Extension in VS Code
5. Installing and Configuring Jupyter Notebook in VS Code
6. Basic Operations in Jupyter Notebook
7. Introduction to Markdown in Jupyter Notebook

In [1]:
print('Hello Python')

Hello Python


In [None]:
def is_palindrome(s: str, ignore_non_alnum: bool = True) -> bool:
    """
    Kiểm tra chuỗi đối xứng (palindrome).
    Nếu ignore_non_alnum=True thì bỏ qua ký tự không phải chữ/số và không phân biệt hoa thường.
    """
    if ignore_non_alnum:
        filtered = ''.join(ch.lower() for ch in s if ch.isalnum())
    else:
        filtered = s.lower()
    return filtered == filtered[::-1]

# Ví dụ sử dụng
samples = [
    "A man, a plan, a canal: Panama",
    "racecar",
    "Hello",
    "12321",
    "Was it a car or a cat I saw?"
]

for txt in samples:
    print(f"'{txt}' -> {is_palindrome(txt)}")

# Nhập chuỗi từ người dùng (bỏ qua nếu muốn)
s = input("Nhập chuỗi để kiểm tra (Enter để bỏ qua): ").strip()
if s:
    print(f"'{s}' -> {is_palindrome(s)}")

In [1]:
from typing import Iterable, Optional, Tuple, List
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

def tfidf_encode(docs: Iterable[str],
                 max_features: Optional[int] = None,
                 ngram_range: Tuple[int, int] = (1, 1),
                 stop_words: Optional[str] = None,
                 norm: Optional[str] = 'l2') -> Tuple[np.ndarray, TfidfVectorizer, List[str]]:
    """
    Mã hóa danh sách văn bản thành ma trận TF-IDF.

    Trả về:
    - X: ma trận TF-IDF dạng numpy.ndarray (n_documents, n_features)
    - vectorizer: đối tượng TfidfVectorizer đã được huấn luyện (có thể dùng để transform văn bản mới)
    - feature_names: danh sách tên đặc trưng (từ/ngram) tương ứng với cột của ma trận

    Tham số:
    - docs: iterable các chuỗi văn bản
    - max_features: giới hạn số đặc trưng (None = không giới hạn)
    - ngram_range: phạm vi n-gram, ví dụ (1,2) sẽ lấy uni- và bi-grams
    - stop_words: 'english' hoặc danh sách từ dừng tùy ý, hoặc None
    - norm: chuẩn hóa vector ('l1', 'l2' hoặc None)
    """
    vectorizer = TfidfVectorizer(max_features=max_features,
                                 ngram_range=ngram_range,
                                 stop_words=stop_words,
                                 norm=norm)
    X_sparse = vectorizer.fit_transform(docs)
    X = X_sparse.toarray()
    feature_names = vectorizer.get_feature_names_out().tolist()
    return X, vectorizer, feature_names

# Ví dụ sử dụng với biến `samples` (nếu đã được định nghĩa trong notebook)
# Nếu muốn thử độc lập, hãy tạo một danh sách văn bản, ví dụ:
# samples = ["this is a test", "another test text", "and one more test"]
try:
    X, vec, features = tfidf_encode(samples, ngram_range=(1,2))
    print("Ma trận TF-IDF shape:", X.shape)
    print("Một vài đặc trưng:", features[:20])
except NameError:
    # Nếu `samples` chưa tồn tại, bỏ qua ví dụ chạy
    pass


## **Headers**: Use `#` for headings from level 1 to 6.
### **Bold and Italics**:
+ Bold: `**Bold text**`
+ talics: `*Italic text*`

### **Lists**:
* Unordered: `- Item`
* Ordered: `1. Item`          


$$x^2+2x+1 = 0$$

## Kiểm định Chi‑square (χ²) — Công thức và ví dụ

### Mục đích
Kiểm định χ² dùng để:
- Kiểm tra độ phù hợp (goodness-of-fit) giữa phân phối quan sát và phân phối kỳ vọng.
- Kiểm tra độc lập giữa hai biến phân loại trong bảng tương quan (contingency table).

### Công thức chung
Cho các ô i với số quan sát thực tế O_i và số kỳ vọng E_i, thống kê χ² được tính bằng:
\[
\chi^2 \;=\; \sum_{i} \frac{(O_i - E_i)^2}{E_i}
\]

Độ tự do (degrees of freedom, df):
- Goodness-of-fit: df = k - 1 - m (k = số loại, m = số tham số ước lượng)
- Bảng r × c (test độc lập): df = (r - 1)(c - 1)

Giá trị p được tính từ phân phối χ² với df tương ứng:
\[
p = P(\chi^2_{df} \ge \text{quan sát})
\]

### Ví dụ (bảng 2×2)
Quan sát (Observed):
|       | A  | B  | Tổng |
|-------|----|----|------|
| X     | 20 | 30 | 50   |
| Y     | 30 | 20 | 50   |
| Tổng  | 50 | 50 | 100  |

Tính số kỳ vọng $E_{ij} = (hàng_i tổng) × (cột_j tổng) / N$:
- E(X,A) = 50 * 50 / 100 = 25
- E(X,B) = 50 * 50 / 100 = 25
- E(Y,A) = 50 * 50 / 100 = 25
- E(Y,B) = 50 * 50 / 100 = 25

Tính χ²:
\[
\begin{aligned}
\chi^2 &= \frac{(20-25)^2}{25} + \frac{(30-25)^2}{25} + \frac{(30-25)^2}{25} + \frac{(20-25)^2}{25} \\
    &= \frac{25}{25} + \frac{25}{25} + \frac{25}{25} + \frac{25}{25} = 4
\end{aligned}
\]

Độ tự do: df = (2-1)(2-1) = 1

Ước tính p-value (bằng phân phối χ² với df=1):
- p ≈ 0.0455 → Nếu mức ý nghĩa α = 0.05 thì bác bỏ giả thuyết độc lập (có mối liên hệ giữa biến A/B và X/Y).

### Ghi chú
- Điều kiện áp dụng: các kỳ vọng E_i nên đủ lớn (thường ≥ 5) để xấp xỉ phân phối χ² là hợp lệ.
- Với bảng lớn hoặc khi điều kiện không thỏa, có thể dùng kiểm định chính xác Fisher (bảng 2×2) hoặc phương pháp hoán vị.