# Matplotlib

## 📊 1. Vẽ Đồ Thị Cơ Bản
* `import matplotlib.pyplot as plt`: Nhập thư viện pyplot.
* `plt.style.use("style_name")`: Chọn kiểu hiển thị (vd: `"ggplot"`).
* `plt.plot(y)`: Vẽ đồ thị với `y` là tung độ, hoành độ là chỉ số (index).
* `plt.plot(x, y)`: Vẽ đồ thị với `x` là hoành độ, `y` là tung độ.
* `plt.show()`: Hiển thị đồ thị vừa vẽ.

---

## 📐 2. Tùy Chỉnh Đồ Thị
* `plt.xlim(min, max)`: Đặt giới hạn cho trục hoành.
* `plt.ylim(min, max)`: Đặt giới hạn cho trục tung (có thể dùng `None` cho một giới hạn).
* `plt.title("Tiêu đề")`: Thêm tiêu đề cho đồ thị.
* `plt.xlabel("Nhãn trục X")`: Thêm nhãn cho trục hoành.
* `plt.ylabel("Nhãn trục Y")`: Thêm nhãn cho trục tung.
* `plt.grid(True)`: Hiển thị lưới (hoặc `False` để ẩn).

---

## ✨ 3. Định Dạng Đường & Màu Sắc
* `plt.plot(x, y, format_string)`: Định dạng đường vẽ và màu sắc.
    * *Ví dụ:* `'b--'` (blue dashed line - xanh dương, nét đứt).
    * *Ví dụ:* `'r:'` (red dotted line - đỏ, nét chấm).
    * *Ví dụ:* `'g^'` (green triangles - xanh lá, marker hình tam giác).
* `plt.plot(x, y, color='blue', ...)`: Chỉ định màu sắc cụ thể.

---

## 🖼️ 4. Kích Thước & Đồ Thị Con (Subplots)
* `plt.subplots(figsize=(width, height))`: Tạo figure và axes với kích thước tùy chỉnh (đơn vị inch).
* `plt.subplot(rows, cols, index)`: Chia figure thành lưới `rows` x `cols` và chọn đồ thị con thứ `index` để vẽ.
    * *Ví dụ:* `plt.subplot(2, 2, 1)` (Lưới 2x2, chọn ô thứ 1 - trái trên).
    * *Ví dụ:* `plt.subplot(2, 1, 2)` (Lưới 2x1, chọn ô thứ 2 - dưới).

---

## 📝 5. Thêm Chữ, Chú Thích & Nhãn
* `plt.text(x, y, "Nội dung")`: Thêm chữ tại tọa độ (x, y).
    * *Tham số tùy chọn:* `fontsize`, `color`, `horizontalalignment`, `rotation`.
* `plt.plot(..., label="Tên đường")`: Đặt nhãn cho một đường vẽ.
* `plt.legend(loc="vị_trí")`: Hiển thị bảng chú giải các nhãn.
    * *Ví dụ:* `loc="lower right"` (góc dưới bên phải).

---

## 📈 6. Các Loại Đồ Thị Khác
* `plt.hist(data, bins=n)`: Vẽ biểu đồ tần suất (histogram) với `n` khoảng (bins).
* `plt.scatter(x, y)`: Vẽ biểu đồ phân tán (scatter plot).
    * *Tham số tùy chọn:* `s` (kích thước điểm), `c` (màu sắc điểm), `alpha` (độ trong suốt).
* `plt.boxplot(data)`: Vẽ biểu đồ hộp (boxplot).
* `plt.bar(dataColumns,dataValues)`: Vẽ biểu đồ bar
---

## 💾 7. Lưu Hình Vẽ
* `plt.savefig("tên_file.png")`: Lưu đồ thị thành file ảnh.
    * *Tham số tùy chọn:* `transparent=True` (nền trong suốt).

# Pandas

## 📥 1. Nhập & Xuất Dữ Liệu
* `pd.read_csv('file.csv')`: Đọc file CSV.
* `pd.read_excel('file.xlsx')`: Đọc file Excel.
* `pd.read_json('file.json')`: Đọc file JSON.
* `pd.DataFrame(data)`: Tạo DataFrame từ dữ liệu (ví dụ: list, dictionary).
* `df.to_csv('file.csv')`: Lưu DataFrame thành file CSV.
* `df.to_excel('file.xlsx')`: Lưu DataFrame thành file Excel.

---

## 🔍 2. Khám Phá Nhanh
* `.head(n)`: Xem `n` dòng đầu tiên (mặc định là 5).
* `.tail(n)`: Xem `n` dòng cuối cùng (mặc định là 5).
* `.sample(n)`: Lấy ngẫu nhiên `n` dòng.
* `.shape`: Trả về (số dòng, số cột).
* `.info()`: Thông tin tổng quan (kiểu dữ liệu, giá trị non-null).
* `.describe()`: Thống kê mô tả cho các cột số.
* `.value_counts()`: Đếm các giá trị duy nhất trong một cột (Series).

---

## 🎯 3. Chọn & Lọc Dữ Liệu
* `df['col']` hoặc `df.col`: Chọn một cột (trả về Series).
* `df[['col1', 'col2']]`: Chọn nhiều cột (trả về DataFrame).
* `df.loc[label]`: Chọn theo nhãn (label) của index hoặc cột.
* `df.iloc[vị_trí]`: Chọn theo vị trí số nguyên (integer position).
* `df[điều_kiện]`: Lọc các dòng thỏa mãn điều kiện.
    * *Ví dụ:* `df[df['age'] > 30]`
    * *Ví dụ:* `df.loc[df['age'] > 30, ['name', 'age']]`

---

## 🔧 4. Thay Đổi & Làm Sạch
* `.rename(columns={'old': 'new'})`: Đổi tên cột.
* `.replace(old, new)`: Thay thế giá trị.
* `.drop(columns=['col'])`: Xóa cột.
* `.drop(labels=[index])`: Xóa dòng theo index.
* `.fillna(value)`: Điền giá trị cho các ô bị thiếu (NaN).
* `.dropna()`: Xóa các dòng/cột có giá trị NaN.
* `.isna().sum()`: Đếm số lượng giá trị NaN trong mỗi cột.

---

## 📊 5. Thống Kê & Nhóm Dữ Liệu
* `.mean()`, `.std()`: Tính trung bình, độ lệch chuẩn.
* `.max()`, `.min()`: Tìm giá trị lớn nhất, nhỏ nhất.
* `.nunique()`: Đếm số lượng giá trị duy nhất.
* `.groupby('col')`: Nhóm dữ liệu theo một cột.
* `df.groupby('col').agg(...)`: Áp dụng nhiều hàm thống kê (ví dụ: `sum`, `mean`).
* `.reset_index()`: Chuyển index nhóm thành cột.

---

## 📈 6. Trực Quan Hóa
* `.plot(kind='line')`: Vẽ biểu đồ đường (hoặc `'bar'`, `'scatter'`).
* `.hist()`: Vẽ biểu đồ histogram.
* `.boxplot()`: Vẽ biểu đồ hộp.

# NumPy

## 📦 1. Nhập NumPy
* `import numpy as np`: Nhập thư viện NumPy và đặt tên gợi nhớ là `np`.

---

## 🔢 2. Mảng NumPy (ndarray)
* **ndarray**: Là tập hợp các phần tử **cùng kiểu dữ liệu**.
* **rank**: Số chiều của mảng.
* **shape**: Kích thước (hình dạng) của mảng (vd: `(2, 3)` cho ma trận 2 dòng 3 cột).
* **size**: Tổng số phần tử trong mảng.
* Tạo từ list: `np.array([1, 2, 3])` hoặc `np.array([[1, 2], [3, 4]])`.
* Truy cập phần tử: Dùng dấu ngoặc vuông (vd: `a[0]`, `b[0, 1]`).

---

## ✨ 3. Hàm Tạo Mảng
* `np.zeros((rows, cols))`: Tạo mảng toàn số 0.
* `np.ones((rows, cols))`: Tạo mảng toàn số 1.
* `np.full((rows, cols), value)`: Tạo mảng với tất cả phần tử là `value`.
* `np.eye(n)`: Tạo ma trận đơn vị kích thước `n x n`.
* `np.arange(start, stop, step)`: Tạo mảng các số cách đều nhau (tương tự `range`).
* `np.linspace(start, stop, num)`: Tạo mảng gồm `num` số cách đều nhau từ `start` đến `stop`.
* `np.random.random((rows, cols))`: Tạo mảng với các giá trị ngẫu nhiên (từ 0 đến 1).

---

## 🎯 4. Chỉ Mục (Indexing)
* **Slicing**: Tương tự list, nhưng có thể áp dụng cho nhiều chiều.
    * `a[:2, 1:3]`: Lấy 2 dòng đầu, cột thứ 1 và 2 (không bao gồm cột 3).
    * Slice là một **view** (tham chiếu) tới dữ liệu gốc, thay đổi slice sẽ thay đổi mảng gốc.
    * Kết hợp số nguyên và slice: `a[1, :]` (lấy dòng thứ 1, rank giảm 1), `a[1:2, :]` (lấy dòng thứ 1, rank giữ nguyên).
* **Integer Indexing**: Chọn các phần tử không liên tiếp.
    * `a[[0, 1, 2], [0, 1, 0]]`: Lấy các phần tử `a[0,0]`, `a[1,1]`, `a[2,0]`.
    * Có thể lặp lại chỉ số: `a[[0, 0], [1, 1]]` (lấy `a[0,1]` hai lần).
    * Chọn/thay đổi 1 phần tử mỗi hàng: `a[np.arange(4), [0, 2, 0, 1]]`.
* **Boolean Indexing**: Chọn phần tử thỏa mãn điều kiện.
    * `bool_idx = (a > 2)`: Tạo mảng boolean cùng shape với `a`.
    * `a[bool_idx]`: Lấy các phần tử ứng với giá trị `True`.
    * Viết tắt: `a[a > 2]`.

---

## 🧮 5. Phép Toán Trên Mảng
* **Element-wise**: Các phép toán `+`, `-`, `*`, `/`, `np.sqrt()` thực hiện trên từng phần tử tương ứng.
* **Dot Product**: Nhân ma trận/vector.
    * `v.dot(w)` hoặc `np.dot(v, w)` (vector x vector).
    * `x.dot(v)` hoặc `np.dot(x, v)` (matrix x vector).
    * `x.dot(y)` hoặc `np.dot(x, y)` (matrix x matrix).
* **Sum**: `np.sum(x)` (tổng tất cả), `np.sum(x, axis=0)` (tổng theo cột), `np.sum(x, axis=1)` (tổng theo hàng).
* **Transpose**: Chuyển vị ma trận bằng thuộc tính `.T` (Lưu ý: không có tác dụng với mảng rank 1).

# Phân Phối Xác Suất

## 1. Giới Thiệu
* **Phân Phối Xác Suất (PPXS)**: Thể hiện xác suất xuất hiện của các giá trị của một biến ngẫu nhiên.
* **Mục đích**: Hiểu quy luật của dữ liệu, dự đoán giá trị, so sánh dữ liệu với các PPXS đã biết.

---

## 2. Thư Viện `scipy.stats`
* Thư viện chính trong Python để làm việc với các PPXS.
* Một số phân phối thông dụng và cách import:

| Scipy Package | Distribution Name         | Tên Phân Phối             | Ký hiệu                     | Cách Import                 |
| ------------- | ------------------------- | ------------------------- | --------------------------- | --------------------------- |
| `binom`       | Binomial Distribution     | Phân Phối Nhị Thức        | $B(n, p)$                   | `from scipy.stats import binom` |
| `poisson`     | Poisson Distribution      | Phân Phối Poisson         | $P(\lambda)$                | `from scipy.stats import poisson`|
| `norm`        | Normal/Gauss Distribution | Phân Phối Chuẩn           | $N(\mu, \sigma^2)$          | `from scipy.stats import norm`  |
| `t`           | Student Distribution      | Phân Phối Student         | $T$                         | `from scipy.stats import t`     |
| `chi2`        | Chi Square Distribution   | Phân Phối Chi Bình Phương | $\chi^2$                    |                             |

---

## 3. Các Hàm Thông Dụng trong `scipy.stats`
* `<distribution>.rvs(...)`: Tạo mẫu ngẫu nhiên (Random Variates).
    * `size`: Số lượng mẫu cần tạo.
    * Các tham số đặc trưng của phân phối (vd: `n`, `p` cho `binom`; `loc`, `scale` cho `norm`).
* `<distribution>.pmf(k, ...)`: Hàm khối xác suất (Probability Mass Function) - $P(X=k)$ cho phân phối **rời rạc**.
* `<distribution>.pdf(x, ...)`: Hàm mật độ xác suất (Probability Density Function) - $f(x)$ cho phân phối **liên tục**.
* `<distribution>.cdf(x, ...)`: Hàm phân phối tích lũy (Cumulative Distribution Function) - $P(X \le x)$.
* `<distribution>.ppf(q, ...)`: Hàm điểm phần trăm (Percent Point Function) - Hàm ngược của CDF, tìm $x$ sao cho $P(X \le x) = q$.
* `<distribution>.sf(x, ...)`: Hàm sống sót (Survival Function) - $P(X > x)$ (bằng `1 - cdf(x)`).
* `<distribution>.isf(q, ...)`: Hàm ngược của hàm sống sót - tìm $x$ sao cho $P(X > x) = q$.

---

## 4. Phân Phối Nhị Thức (`binom`)
* **Ký hiệu**: $B(n, p)$
    * `n`: Số lần thực hiện phép thử Bernoulli độc lập.
    * `p`: Xác suất thành công trong một lần thử.
* **Biến ngẫu nhiên X**: Số lần thành công trong `n` phép thử.
* **Ví dụ**: Số câu đúng khi đánh lụi 10 câu trắc nghiệm (4 chọn 1). `n=10`, `p=0.25`.

```python
from scipy.stats import binom
import matplotlib.pyplot as plt
import numpy as np

n, p = 10, 0.25

# Tạo 1 mẫu ngẫu nhiên
mau_1 = binom.rvs(n, p)

# Tạo 1000 mẫu ngẫu nhiên
mau_1000 = binom.rvs(n, p, size=1000)

# Vẽ histogram
plt.hist(mau_1000, bins=np.arange(n+2)-0.5, width=0.4) # Chỉnh bins và width
plt.show()

# Tính và vẽ hàm PMF (xác suất tại từng giá trị k=0..10)
k_values = np.arange(n + 1)
pmf_values = binom.pmf(k_values, n, p)
plt.scatter(k_values, pmf_values, color='red')
plt.plot(k_values, pmf_values, color='orange', ls='--') # Nối điểm cho dễ nhìn
plt.show()

# Tính và vẽ hàm CDF (xác suất tích lũy P(X <= k))
cdf_values = binom.cdf(k_values, n, p)
plt.plot(k_values, cdf_values, marker='o')
plt.show() 
```
---

## 4. Phân Phối Chuẩn (`norm`)
* **Ký hiệu**: $N(\mu, \sigma^2)$
    * ($\mu$): Kỳ vọng (trung bình).
    *  ($\sigma$): Độ lệch chuẩn.
* **Biến ngẫu nhiên X**:  Biến liên tục, đồ thị hình chuông đối xứng qua $\mu$.
* **Ví dụ**: Chiều cao thanh niên ($\mu=170$ cm, $\sigma=3$ cm).


```python 
from scipy.stats import norm
import matplotlib.pyplot as plt
import numpy as np

mu, sigma = 170, 3

# Tạo 10000 mẫu ngẫu nhiên
mau_10k = norm.rvs(loc=mu, scale=sigma, size=10000)

# Vẽ histogram
plt.hist(mau_10k, bins=100)
plt.show()

# Tính và vẽ hàm PDF (hàm mật độ xác suất)
x_values = np.linspace(mu - 4*sigma, mu + 4*sigma, 200) # Khoảng giá trị quanh mu
pdf_values = norm.pdf(x_values, loc=mu, scale=sigma)
plt.plot(x_values, pdf_values, label=f'$\\mu={mu}, \\sigma={sigma}$')
plt.legend()
plt.show()

# --- Tính toán với phân phối chuẩn tắc (mu=0, sigma=1) ---
# P(Z <= -1)
p_le_neg1 = norm.cdf(-1)

# P(Z > 1) = 1 - P(Z <= 1)
p_gt_1 = 1 - norm.cdf(1)
# Hoặc dùng hàm sf: P(Z > 1)
p_gt_1_sf = norm.sf(1)

# P(-1 <= Z <= 1)
p_between = norm.cdf(1) - norm.cdf(-1)

# Tìm z sao cho P(Z <= z) = 0.02275
z_val = norm.ppf(0.02275)

# Tìm z sao cho P(Z > z) = 0.02275
z_val_isf = norm.isf(0.02275)

# --- Tính toán với phân phối chuẩn bất kỳ (ví dụ mu=16, scale=4) ---
# P(X <= 8)
p_le_8 = norm.cdf(8, loc=16, scale=4)

# Tìm x sao cho P(X <= x) = 0.02275
x_val = norm.ppf(0.02275, loc=16, scale=4)
```