# **Bài giảng 4 - Nhập và lưu trữ dữ liệu với Python**



**Mục tiêu bài học**

* Tìm hiểu các phương pháp nhập dữ liệu từ các nguồn phổ biến.
* Giải thích chi tiết cách sử dụng các hàm của Pandas như read_csv, read_excel, read_json, và read_sql.
* Đưa ra ví dụ minh họa cụ thể với code và output, kèm theo giải thích  từng tham số và trường hợp sử dụng.
* Đề cập đến các tình huống thực tế và cách xử lý các vấn đề thường gặp (dữ liệu thiếu, cấu trúc không chuẩn).

**Các hoạt động nhập/xuất dữ liệu:**

* Đọc từ tệp văn bản: Bao gồm CSV, JSON, và XML.
* Tải từ cơ sở dữ liệu: Sử dụng SQL hoặc các hệ quản trị cơ sở dữ liệu (DBMS) như SQLite.
* Tương tác qua mạng: Lấy dữ liệu từ API web hoặc các nguồn trực tuyến.

---

## **📍 Lộ trình bài giảng**

```
Phần 1: File văn bản (CSV, TXT)              ⭐ Dễ
    ├── Đọc CSV cơ bản
    ├── Xử lý file không có header
    ├── Gán chỉ số (index)
    └── Phân tách tùy chỉnh
    
Phần 2: Dữ liệu JSON                         ⭐ Dễ
    ├── Cấu trúc JSON
    └── Đọc và xử lý dữ liệu thiếu
    
Phần 3: Đọc từ Web (HTML)                    ⭐⭐ Trung bình
    ├── Đọc bảng HTML
    ├── Kiểm tra dữ liệu thiếu
    ├── Lưu ra CSV
    └── Phân tích theo thời gian
    
Phần 4: RSS Feed (XML)                       ⭐⭐⭐ Khó
    ├── Hiểu cấu trúc XML/RSS
    ├── Parse với BeautifulSoup
    └── Lọc dữ liệu tin tức
    
Phần 5: File Excel                           ⭐⭐ Trung bình
    ├── Đọc từ nhiều sheet
    └── Ghi dữ liệu ra Excel
    
Phần 6: Web API                              ⭐⭐ Trung bình
    └── Tương tác với REST API
    
Phần 7: Cơ sở dữ liệu SQL                    ⭐⭐⭐ Khó
    ├── Tạo và kết nối database
    ├── INSERT, SELECT
    └── Chuyển SQL → DataFrame
```

> **💡 Khuyến nghị:** Học tuần tự từ Phần 1 → Phần 7. Mỗi phần xây dựng dựa trên kiến thức của phần trước.

---


# **1. Đọc và Lưu Dữ Liệu Ở Định Dạng Văn Bản**

Pandas cung cấp nhiều hàm để đọc dữ liệu dạng bảng và lưu trữ dưới dạng `DataFrame`. Các hàm này được thiết kế linh hoạt để xử lý nhiều định dạng tệp và các tình huống dữ liệu không chuẩn.


## **1.1. Tổng Quan Các Hàm Đọc Dữ Liệu**
Dưới đây là bảng liệt kê một số hàm phổ biến trong Pandas để đọc dữ liệu:

| STT | Hàm             | Mô tả                                                                 |
|-----|-----------------|----------------------------------------------------------------------|
| 1   | `read_csv`      | Đọc dữ liệu từ tệp CSV, phân tách bằng dấu phẩy (mặc định).          |
| 2   | `read_table`    | Đọc dữ liệu phân tách bằng ký tự tab (`\t`) (mặc định).              |
| 3   | `read_fwf`      | Đọc dữ liệu có độ rộng cột cố định (không phân tách).                |
| 4   | `read_clipboard`| Đọc dữ liệu từ clipboard (hữu ích khi sao chép bảng từ web).         |
| 5   | `read_excel`    | Đọc dữ liệu từ tệp Excel (XLS/XLSX).                                 |
| 6   | `read_json`     | Đọc dữ liệu từ chuỗi JSON.                                           |
| 7   | `read_html`     | Đọc tất cả bảng từ tài liệu HTML.                                    |
| 8   | `read_xml`      | Đọc bảng từ tệp XML.                                                 |
| 9  | `read_sql`      | Đọc kết quả truy vấn SQL vào DataFrame.                              |


Các hàm này hỗ trợ suy luận kiểu dữ liệu (data type inference), tức là `Pandas` tự động xác định kiểu dữ liệu của các cột (số nguyên, số thực, chuỗi, v.v.). Tuy nhiên, trong một số trường hợp (như ngày tháng hoặc kiểu dữ liệu tùy chỉnh), cần chỉ định kiểu dữ liệu rõ ràng để tránh sai sót.

## **1.2. Đọc Dữ Liệu CSV Cơ Bản**
* CSV (Comma-Separated Values) là một tệp văn bản (plain text) chứa dữ liệu dạng bảng.

* Mỗi dòng (row) trong file tương ứng với một bản ghi (record).

* Các cột (column/field) trong một dòng được phân tách bằng dấu phẩy (,) hoặc ký tự phân tách khác như ;, \t (tab).

* Nói cách khác, CSV là cách lưu dữ liệu dạng bảng (giống Excel) nhưng dưới dạng text đơn giản.

**Ví dụ:** file CSV ex1.csv

> Diem 1,Diem 2,Diem 3,Diem 4,Nhan xet

>1,2,3,4,Hoc luc yeu

>5,6,7,8,Hoc luc trung binh kha

>9,10,9,10,Hoc luc xuat sac





Hàm `read_csv` là công cụ chính để đọc dữ liệu CSV.

**Ví dụ:** Giả sử tệp `ex1.csv` được lưu tại [đường dẫn](https://github.com/tranhungemail/DSImageCourse/blob/main/ex1.csv)



In [1]:
#Code để đọc file ex1.csv để trên Github và hiển thị dưới dạng Markdown
import pandas as pd
from IPython.display import display, Markdown

url = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex1.csv"
df = pd.read_csv(url)
# Hiển thị 10 dòng đầu tiên thành bảng Markdown
display(Markdown(df.head(10).to_markdown()))


|    |   Diem 1 |   Diem 2 |   Diem 3 |   Diem 4 | Nhan xet               |
|---:|---------:|---------:|---------:|---------:|:-----------------------|
|  0 |        1 |        2 |        3 |        4 | Hoc luc yeu            |
|  1 |        5 |        6 |        7 |        8 | Hoc luc trung binh kha |
|  2 |        9 |       10 |        9 |       10 | Hoc luc xuat sac       |
|  3 |        5 |        6 |        5 |        6 | Trung binh             |
|  4 |        4 |        6 |        5 |        6 | Trung Binh             |
|  5 |        8 |        9 |        8 |        9 | Gioi                   |
|  6 |        2 |        1 |        2 |        1 | Hoc luc yeu            |

In [2]:
#Code để đọc file ex1.csv để trên Github
import pandas as pd
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex1.csv"
df = pd.read_csv(path) # Đọc file CSV và tạo thành một dataframe
print(df)

   Diem 1  Diem 2  Diem 3  Diem 4                Nhan xet
0       1       2       3       4             Hoc luc yeu
1       5       6       7       8  Hoc luc trung binh kha
2       9      10       9      10        Hoc luc xuat sac
3       5       6       5       6              Trung binh
4       4       6       5       6              Trung Binh
5       8       9       8       9                    Gioi
6       2       1       2       1             Hoc luc yeu


**Giải thích:**
* `read_csv` mặc định hiểu dòng đầu tiên là tên cột (header).
* Các cột được tự động suy luận kiểu dữ liệu: `Diem 1,Diem 2,Diem 3,Diem 4,Nhan xet` là số nguyên (`int`), message là chuỗi (`object`).
* `DataFrame` được tạo với chỉ số mặc định (0, 1, 2).

## **1.3. Xử Lý Tệp Không Có Header**
* Header trong CSV là dòng đầu tiên chứa tên cột.
* Một số file CSV không có header, tức là dòng đầu tiên đã là dữ liệu luôn.
**Ví dụ:**

In [3]:
#Code để đọc file ex2.csv để trên Github
import pandas as pd
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex2.csv"
df = pd.read_csv(path,header=None) # Đọc file CSV và tạo thành một dataframe
print(df)

    0      1      2                      3  4
0   1   2000   2000                But chi  1
1   5   6000  30000             Vo ghi chu  2
2   9  10000  90000        Hop but chi mau  3
3   5   6000  30000  Hop but bi Thien Long  4
4   4   5000  20000          But viet bang  5
5   8   8000  64000           Note sticker  6
6  10   2000  20000                But chi  1


In [4]:
#***Code (gán tên cột):***
import pandas as pd

print("Trước khi gán tên cho các cột")
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex2.csv"
df_default_names = pd.read_csv(path,header=None)
print(df_default_names)
print("\n\n\n")
print("===============Sau khi gán tên cho các cột=================")
names = ["So luong", "Don gia", "Thanh tien", "Ten san pham", "ID"]
df_custom_names = pd.read_csv(path, names=names)
print(df_custom_names)

Trước khi gán tên cho các cột
    0      1      2                      3  4
0   1   2000   2000                But chi  1
1   5   6000  30000             Vo ghi chu  2
2   9  10000  90000        Hop but chi mau  3
3   5   6000  30000  Hop but bi Thien Long  4
4   4   5000  20000          But viet bang  5
5   8   8000  64000           Note sticker  6
6  10   2000  20000                But chi  1




   So luong  Don gia  Thanh tien           Ten san pham  ID
0         1     2000        2000                But chi   1
1         5     6000       30000             Vo ghi chu   2
2         9    10000       90000        Hop but chi mau   3
3         5     6000       30000  Hop but bi Thien Long   4
4         4     5000       20000          But viet bang   5
5         8     8000       64000           Note sticker   6
6        10     2000       20000                But chi   1


**Giải thích:**

* `header=None`: Ngăn Pandas coi dòng đầu tiên là tiêu đề, thay vào đó gán chỉ số cột mặc định.
* `names`: Cho phép chỉ định danh sách tên cột tùy chỉnh.
* Sử dụng khi tệp CSV không có tiêu đề hoặc tiêu đề không phù hợp.

## **1.4. Gán chỉ số**
###Xác định vị trí và truy cập nhanh

* Chỉ số (`index`) giống như "nhãn" hoặc "số thứ tự" để xác định từng hàng trong bảng dữ liệu.

* Khi có index rõ ràng, ta có thể dễ dàng lấy ra một hàng hoặc một tập con dữ liệu mà không cần duyệt toàn bộ bảng.
* Ví dụ: trong pandas, nếu bạn có một `DataFrame` với index là ngày tháng, bạn có thể nhanh chóng lấy dữ liệu theo ngày "2024-08-31" thay vì phải lọc theo cột.

###Dễ dàng sắp xếp và lọc

* Index cho phép bạn sắp xếp dữ liệu theo thứ tự cụ thể (thời gian, ID, tên, …).

* Ngoài ra, nhiều thao tác lọc hoặc slice dữ liệu (ví dụ: lấy từ dòng số 10 đến số 20, hoặc lấy từ ngày A đến ngày B) sẽ thuận tiện hơn nếu có index.

###Tăng hiệu quả khi kết hợp dữ liệu

* Khi làm việc với nhiều bảng (join/merge), index đóng vai trò như một khóa (key) để ghép dữ liệu.

* Ví dụ: bảng sinh viên có index là student_id và bảng điểm cũng có student_id, ta có thể merge hai bảng dễ dàng.

### Giúp dữ liệu có ý nghĩa và trực quan hơn

* Nếu không có index, dữ liệu chỉ đơn thuần là các dòng số thứ tự 0,1,2,...

* Khi gán index phù hợp (ví dụ: mã khách hàng, tên sản phẩm, ngày tháng), dữ liệu trở nên dễ đọc và dễ hiểu hơn.


In [5]:
import pandas as pd
names = ["So luong", "Don gia", "Thanh tien", "Ten san pham", "ID"]

path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex2.csv"
df_indexed = pd.read_csv(path, names=names, index_col="ID") # Đánh index cho cột ID
print(df_indexed)

    So luong  Don gia  Thanh tien           Ten san pham
ID                                                      
1          1     2000        2000                But chi
2          5     6000       30000             Vo ghi chu
3          9    10000       90000        Hop but chi mau
4          5     6000       30000  Hop but bi Thien Long
5          4     5000       20000          But viet bang
6          8     8000       64000           Note sticker
1         10     2000       20000                But chi


**Giải thích:**

* `index_col="ID"`: Chỉ định cột `ID` làm chỉ số, thay vì chỉ số mặc định.
* Chỉ số này giúp truy cập hàng dễ dàng hơn dựa trên giá trị của `ID`.

## **1.5. Phân Tách Không Phải Dấu Phẩy**

Không phải tệp văn bản nào cũng sử dụng dấu phẩy làm phân tách. Có thể chỉ định phân tách bằng tham số `sep`, hỗ trợ cả biểu thức chính quy (regular expression).

**Ví dụ:** Tệp [ex3.txt](https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex3.txt) phân tách bằng khoảng trắng:

A B C D

aaa -0.264438 -1.026059 -0.619500

bbb  0.927272  0.302904 -0.032399

ccc -0.264273 -0.386314 -0.217601

ddd -0.871858 -0.348382  1.100491

In [6]:
#Code
import pandas as pd
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex3.txt"
result = pd.read_csv(path,index_col=["A"], sep=r"\s+")
print(result)

            B         C         D
A                                
aaa -0.264438 -1.026059 -0.619500
bbb  0.927272  0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382  1.100491


**Giải thích:**

* `sep=r"\s+"`: Sử dụng [biểu thức chính quy](https://viblo.asia/p/python-regex-Qbq5QMeE5D8) để khớp với một hoặc nhiều khoảng trắng.
* `Pandas` nhận diện cột "A" làm chỉ số.

In [7]:
import pandas as pd
#Khi chưa skip row
path="https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex4.csv"
df = pd.read_csv(path) # Đọc file và không đọc các row 0, 2, 3
print(df)
#Sau khi skip row 0, 2, 3
print("\n")
print("=================Sau khi skip row [0, 2, 3] ================")
path="https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex4.csv"
df_skip = pd.read_csv(path, skiprows=[0, 2, 3]) # Đọc file và không đọc các file tại row 0, 2, 3
print(df_skip)

                                                                                            Hey!
Diem 1                                            Diem 2   Diem 3 Diem 4                Nhan xet
just wanted to make things more difficult for you NaN      NaN    NaN                        NaN
who reads CSV files with computers                 anyway? NaN    NaN                        NaN
1                                                 2        3      4                  Hoc luc yeu
5                                                 6        7      8       Hoc luc trung binh kha
9                                                 10       9      10            Hoc luc xuat sac
5                                                 6        5      6                   Trung binh
4                                                 6        5      6                   Trung Binh
8                                                 9        8      9                         Gioi
2                             

**Giải thích:**
* `skiprows=[0, 2, 3]`: Bỏ qua các dòng 0, 2, và 3.
* Pandas chỉ đọc các dòng chứa dữ liệu thực tế, giữ nguyên tiêu đề.

In [8]:
#Code dữ liệu thiếu được hiển thị dưới dạng NaN
import pandas as pd
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex5.csv"
df = pd.read_csv(path, encoding='latin-1')
print(df)

  Ho va ten  Diem_Toan  Diem_Van  Diem_Anh  Diem_Ly            Ghi_chu
0        An         88      85.0      65.0     96.0                NaN
1      Bình         92      57.0      98.0     52.0  Ko co gi dac biet
2       Chi         51      73.0       NaN     87.0                NaN
3      Dung         91      90.0      56.0     95.0                NaN
4        Ha         67      99.0      86.0     76.0                NaN
5      Hanh         76       NaN      72.0     90.0                NaN
6     Khanh         58      69.0      60.0     88.0                NaN
7       Lan         90      93.0      75.0      NaN                NaN
8      Minh         95      72.0      91.0     67.0                NaN
9      Ngoc         97      80.0      78.0     94.0                NaN


# **2. Đọc Dữ Liệu Từ JSON**

* JSON là một định dạng dữ liệu dựa trên văn bản và có thể được sử dụng với hầu hết các ngôn ngữ lập trình (Python, Java, C#, PHP, v.v.).

* JSON được sử dụng để biểu diễn dữ liệu có cấu trúc, thường ở dạng cặp key-value (khóa-giá trị) hoặc danh sách các giá trị.
* Ví dụ đơn giản về JSON:


```
{
  "name": "Nguyen Van A",
  "age": 25,
  "isStudent": true,
  "hobbies": ["reading", "coding", "traveling"],
  "address": {
    "street": "123 Le Loi",
    "city": "Hanoi"
  }
}
```

* `"name", "age", "isStudent", "hobbies", "address"` là các **key**.
* `"Nguyen Van A", 25, true, ["reading", "coding", "traveling"]`, và đối tượng `{ "street": "123 Le Loi", "city": "Hanoi" }` là các **value**.



## **2.1. Cấu trúc của JSON**

JSON có hai cấu trúc chính: Object (đối tượng), Array (mảng).

**2.1.1. Object (Đối tượng):**

* Là tập hợp các cặp key-value được bao quanh bởi dấu {}.
* Key là một chuỗi (string) được bao quanh bởi dấu nháy kép ("").

* Value có thể là:

  * Chuỗi (string): "Hello"
  * Số (number): 42 hoặc 3.14
  * Boolean: true hoặc false
  * Mảng (array): ["item1", "item2"]
  * Đối tượng (object): { "key": "value" }
  * Giá trị null: null

* Các cặp key-value được phân tách bởi dấu phẩy (,).

**2.1.2. Array (Mảng):**

* Là danh sách các giá trị được bao quanh bởi dấu [].

* Các giá trị trong mảng có thể thuộc bất kỳ kiểu dữ liệu nào được JSON hỗ trợ `(string, number, object, array, boolean, null)`.
* Các giá trị được phân tách bởi dấu phẩy.

## 2.2. Đọc dữ liệu từ tệp JSON
Dữ liệu từ tệp JSON được lưu tại có tên [student.json](https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/student.json)


In [9]:
[
  {"ten": "An",   "diem_toan": 85, "diem_van": 78, "diem_anh": 90, "diem_ly": 65},
  {"ten": "Binh", "diem_toan": 70, "diem_van": 88, "diem_anh": "null", "diem_ly": 74},
  {"ten": "Chi",  "diem_toan": 92, "diem_van": "null", "diem_anh": 80, "diem_ly": 100},
  {"ten": "Dung", "diem_toan": 60, "diem_van": 72, "diem_anh": 85, "diem_ly": 90},
  {"ten": "Ha",   "diem_toan": 75, "diem_van": 95, "diem_anh": 78, "diem_ly": 82},
  {"ten": "Hanh", "diem_toan": 88, "diem_van": 91, "diem_anh": 92, "diem_ly": "null"},
  {"ten": "Khanh","diem_toan": 55, "diem_van": 67, "diem_anh": 70, "diem_ly": 73},
  {"ten": "Lan",  "diem_toan": 95, "diem_van": "null", "diem_anh": 88, "diem_ly": 97},
  {"ten": "Minh", "diem_toan": 81, "diem_van": 76, "diem_anh": 84, "diem_ly": "null"},
  {"ten": "Ngoc", "diem_toan": 100, "diem_van": 89, "diem_anh": 95, "diem_ly": 98}
]

import pandas as pd
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/student.json"
df_json = pd.read_json(path)
print(df_json)


     ten  diem_toan  diem_van  diem_anh  diem_ly
0     An         85      78.0      90.0     65.0
1   Binh         70      88.0       NaN     74.0
2    Chi         92       NaN      80.0    100.0
3   Dung         60      72.0      85.0     90.0
4     Ha         75      95.0      78.0     82.0
5   Hanh         88      91.0      92.0      NaN
6  Khanh         55      67.0      70.0     73.0
7    Lan         95       NaN      88.0     97.0
8   Minh         81      76.0      84.0      NaN
9   Ngoc        100      89.0      95.0     98.0


**Giải thích:**

* `read_json` tự động ánh xạ các khóa `JSON` thành cột của `DataFrame`.

* `JSON` phải có cấu trúc phù hợp (danh sách các đối tượng với các khóa nhất quán).


In [10]:
import pandas as pd
# Dữ liệu chưa loại bỏ NaN
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/student.json"
df_json = pd.read_json(path)
print("Dữ liệu gốc:\n", df_json, "\n")

df_drop = df_json.dropna()
print("Loai bo hang co NaN:\n", df_drop)

Dữ liệu gốc:
      ten  diem_toan  diem_van  diem_anh  diem_ly
0     An         85      78.0      90.0     65.0
1   Binh         70      88.0       NaN     74.0
2    Chi         92       NaN      80.0    100.0
3   Dung         60      72.0      85.0     90.0
4     Ha         75      95.0      78.0     82.0
5   Hanh         88      91.0      92.0      NaN
6  Khanh         55      67.0      70.0     73.0
7    Lan         95       NaN      88.0     97.0
8   Minh         81      76.0      84.0      NaN
9   Ngoc        100      89.0      95.0     98.0 

Loai bo hang co NaN:
      ten  diem_toan  diem_van  diem_anh  diem_ly
0     An         85      78.0      90.0     65.0
3   Dung         60      72.0      85.0     90.0
4     Ha         75      95.0      78.0     82.0
6  Khanh         55      67.0      70.0     73.0
9   Ngoc        100      89.0      95.0     98.0


---

## 📊 **So sánh CSV vs JSON**

Đã học xong CSV và JSON, hãy so sánh để hiểu rõ hơn:

| Đặc điểm | CSV | JSON |
|----------|-----|------|
| **Cấu trúc** | Bảng 2 chiều (hàng × cột) | Cặp key-value, có thể lồng nhau |
| **Dễ đọc (con người)** | ✅✅✅ Rất dễ | ✅✅ Khá dễ |
| **Dễ xử lý (máy)** | ✅✅✅ Đơn giản | ✅✅ Linh hoạt |
| **Phù hợp với** | Dữ liệu dạng bảng đơn giản | Dữ liệu phức tạp, API |
| **Kích thước file** | Nhỏ | Lớn hơn (có thêm key names) |
| **Hỗ trợ dữ liệu lồng nhau** | ❌ Không | ✅ Có |
| **Đọc bằng Pandas** | `pd.read_csv()` | `pd.read_json()` |
| **Ví dụ ứng dụng** | Báo cáo, dữ liệu thống kê | Web API, cấu hình app |

### **🤔 Khi nào dùng gì?**

**Dùng CSV khi:**
- ✅ Dữ liệu dạng bảng đơn giản
- ✅ Cần mở bằng Excel
- ✅ File nhỏ, dễ chia sẻ
- ✅ Không cần cấu trúc phức tạp

**Dùng JSON khi:**
- ✅ Làm việc với API
- ✅ Dữ liệu có cấu trúc lồng nhau (nested)
- ✅ Cần lưu cả metadata
- ✅ Trao đổi dữ liệu giữa các ứng dụng

---


In [11]:
import pandas as pd
# Dữ liệu chưa loại bỏ NaN
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/student.json"
df_json = pd.read_json(path)
print("Dữ liệu gốc:\n", df_json, "\n")

print("\n============================\n")
print("Điền dữ liệu thiếu bằng forward fill")
df_ffill = df_json.fillna(method="ffill")
print(df_ffill)

Dữ liệu gốc:
      ten  diem_toan  diem_van  diem_anh  diem_ly
0     An         85      78.0      90.0     65.0
1   Binh         70      88.0       NaN     74.0
2    Chi         92       NaN      80.0    100.0
3   Dung         60      72.0      85.0     90.0
4     Ha         75      95.0      78.0     82.0
5   Hanh         88      91.0      92.0      NaN
6  Khanh         55      67.0      70.0     73.0
7    Lan         95       NaN      88.0     97.0
8   Minh         81      76.0      84.0      NaN
9   Ngoc        100      89.0      95.0     98.0 



Điền dữ liệu thiếu bằng forward fill
     ten  diem_toan  diem_van  diem_anh  diem_ly
0     An         85      78.0      90.0     65.0
1   Binh         70      88.0      90.0     74.0
2    Chi         92      88.0      80.0    100.0
3   Dung         60      72.0      85.0     90.0
4     Ha         75      95.0      78.0     82.0
5   Hanh         88      91.0      92.0     82.0
6  Khanh         55      67.0      70.0     73.0
7    Lan      

  df_ffill = df_json.fillna(method="ffill")


# **3. Đọc dữ liệu từ web**

> **💡 MỤC TIÊU PHẦN NÀY:**  
> Học cách đọc dữ liệu dạng bảng trực tiếp từ các trang web sử dụng Pandas  
> 
> **🎯 KẾT QUẢ:** Sau phần này, bạn sẽ biết cách:
> - Lấy bảng từ bất kỳ trang web nào
> - Kiểm tra và xử lý dữ liệu thiếu
> - Lưu dữ liệu vào file CSV
> - Phân tích dữ liệu theo thời gian

---

## **Giới thiệu**

* Thư viện pandas hỗ trợ đọc dữ liệu dạng bảng trực tiếp từ nhiều nguồn: file CSV, Excel, SQL, và thậm chí cả trang web (HTML table).
* Hàm `pd.read_html(url)` sẽ tự động tìm kiếm **TẤT CẢ** các bảng `<table>` trong trang web và đưa chúng về dưới dạng DataFrame.

> **⚠️ LƯU Ý QUAN TRỌNG:**  
> `pd.read_html()` trả về một **DANH SÁCH (list)** các DataFrame, KHÔNG phải một DataFrame đơn lẻ!

---

## **3.1. Ví dụ thực tế: Đọc danh sách ngân hàng phá sản tại Mỹ**

Chúng ta sẽ đọc dữ liệu từ trang web của FDIC (Federal Deposit Insurance Corporation) - cơ quan bảo hiểm tiền gửi liên bang Mỹ.

### **Các bước thực hiện:**

**Bước 1:** Import thư viện Pandas

**Bước 2:** Xác định URL trang web chứa bảng dữ liệu

**Bước 3:** Đọc TẤT CẢ bảng từ trang web bằng `pd.read_html(url)`

**Bước 4:** Kiểm tra số lượng bảng tìm được

**Bước 5:** Chọn bảng cần thiết (thường là bảng đầu tiên `tables[0]`)

**Bước 6:** Xem dữ liệu với `.head()` để kiểm tra

---

### **Code minh họa:**


In [None]:
# BƯỚC 1: Import thư viện Pandas
import pandas as pd

# BƯỚC 2: Xác định URL trang web chứa bảng dữ liệu
# Đây là trang web của FDIC (cơ quan bảo hiểm tiền gửi Mỹ)
url = "https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/"

# BƯỚC 3: Đọc TẤT CẢ bảng từ trang web
# pd.read_html() tự động tìm tất cả thẻ <table> trong HTML
tables = pd.read_html(url)

# BƯỚC 4: Kiểm tra số lượng bảng tìm được
print(f"✅ Số bảng tìm thấy: {len(tables)}")
print(f"✅ Kiểu dữ liệu: {type(tables)}")  # Sẽ in ra 'list'

# BƯỚC 5: Chọn bảng đầu tiên (index 0)
failures = tables[0]
print(f"✅ Kích thước bảng: {failures.shape[0]} dòng × {failures.shape[1]} cột")

# BƯỚC 6: Xem 5 dòng đầu tiên để kiểm tra
print("\n📊 Dữ liệu 5 dòng đầu:")
print(failures.head())


Số bảng tìm thấy: 1
                               Bank Name          City         State   Cert  \
0           The Santa Anna National Bank    Santa Anna         Texas   5520   
1                   Pulaski Savings Bank       Chicago      Illinois  28611   
2     The First National Bank of Lindsay       Lindsay      Oklahoma   4134   
3  Republic First Bank dba Republic Bank  Philadelphia  Pennsylvania  27332   
4                          Citizens Bank      Sac City          Iowa   8758   

               Acquiring Institution      Closing Date  Fund  Sort ascending  
0          Coleman County State Bank     June 27, 2025                 10549  
1                    Millennium Bank  January 17, 2025                 10548  
2             First Bank & Trust Co.  October 18, 2024                 10547  
3  Fulton Bank, National Association    April 26, 2024                 10546  
4          Iowa Trust & Savings Bank  November 3, 2023                 10545  


---

## **3.2. Kiểm tra dữ liệu thiếu**

Sau khi đọc dữ liệu, bước quan trọng tiếp theo là kiểm tra xem có dữ liệu thiếu (missing data) không.

> **💡 Tại sao cần kiểm tra dữ liệu thiếu?**  
> Dữ liệu thiếu có thể ảnh hưởng đến kết quả phân tích và cần được xử lý trước khi tiếp tục

**Phương pháp:** Sử dụng `.isnull().sum()` để đếm số lượng giá trị thiếu trong mỗi cột

In [None]:
# Sử dụng biến 'failures' đã đọc ở phần 3.1 phía trên
# Không cần đọc lại từ web!

# Kiểm tra dữ liệu thiếu trong từng cột
missing_data = failures.isnull().sum()

print("📊 Số lượng dữ liệu thiếu trong mỗi cột:")
print(missing_data)
print("\n✅ Kết luận: Bảng này không có dữ liệu thiếu (tất cả = 0)")

Số bảng tìm thấy: 1
Bank Name                0
City                     0
State                    0
Cert                     0
Acquiring Institution    0
Closing Date             0
Fund  Sort ascending     0
dtype: int64


---

## **3.3. Lưu dữ liệu ra file CSV**

Sau khi đọc được dữ liệu từ web, chúng ta có thể lưu vào file CSV để sử dụng lại sau này (không cần đọc lại từ web).

> **💡 Lợi ích:**
> - Tiết kiệm thời gian (không cần tải lại từ web)
> - Làm việc offline
> - Dữ liệu ổn định (không thay đổi khi web cập nhật)

**Phương pháp:** Sử dụng `.to_csv()` để lưu DataFrame ra file

In [None]:
# Sử dụng biến 'failures' đã có từ phần 3.1

# Lưu DataFrame ra file CSV
failures.to_csv("bank_failures.csv", index=False, encoding="utf-8")

print("✅ Lưu thành công ra file: bank_failures.csv")
print(f"📁 File chứa {failures.shape[0]} dòng dữ liệu")
print("💡 Bạn có thể mở file này bằng Excel hoặc đọc lại bằng pd.read_csv()")

Số bảng tìm thấy: 1
Lưu thành công ra file CSV


---

## **3.4. Phân tích dữ liệu: Đếm số ngân hàng phá sản theo năm**

Bây giờ chúng ta sẽ phân tích dữ liệu để tìm hiểu xu hướng phá sản ngân hàng theo thời gian.

> **🎯 Mục tiêu:** Đếm số lượng ngân hàng phá sản trong mỗi năm

**Các bước:**
1. Chuyển đổi cột "Closing Date" sang kiểu datetime
2. Trích xuất năm từ ngày tháng
3. Đếm số lượng theo năm với `.value_counts()`

In [None]:
# Sử dụng biến 'failures' đã có từ phần 3.1

# BƯỚC 1: Chuyển đổi cột "Closing Date" sang kiểu datetime
failures["Closing Date"] = pd.to_datetime(failures["Closing Date"])

# BƯỚC 2: Trích xuất năm từ cột datetime
failures["Year"] = failures["Closing Date"].dt.year

# BƯỚC 3: Đếm số lượng theo năm và sắp xếp theo thứ tự
year_counts = failures["Year"].value_counts().sort_index()

print("📊 Số lượng ngân hàng phá sản theo năm:")
print(year_counts)
print(f"\n✅ Tổng số năm có ngân hàng phá sản: {len(year_counts)}")
print(f"✅ Năm có nhiều ngân hàng phá sản nhất: {year_counts.idxmax()} ({year_counts.max()} ngân hàng)")

Số bảng tìm thấy: 1
Year
2017    8
2019    4
2020    4
2023    5
2024    2
2025    2
Name: count, dtype: int64


---

## 📌 **TÓM TẮT SECTION 3: ĐỌC DỮ LIỆU TỪ WEB**

### **✅ Kiến thức đã học:**
1. ✅ Sử dụng `pd.read_html(url)` để đọc bảng HTML từ web
2. ✅ `read_html()` trả về **LIST** các DataFrame, không phải DataFrame đơn lẻ
3. ✅ Kiểm tra dữ liệu thiếu với `.isnull().sum()`
4. ✅ Lưu DataFrame ra CSV với `.to_csv()`
5. ✅ Xử lý ngày tháng với `pd.to_datetime()`
6. ✅ Đếm theo nhóm với `.value_counts()`

### **🔑 Hàm quan trọng:**
| Hàm | Mục đích | Ví dụ |
|-----|----------|-------|
| `pd.read_html(url)` | Đọc tất cả bảng từ web | `tables = pd.read_html(url)` |
| `.to_csv(filename)` | Lưu DataFrame ra CSV | `df.to_csv("data.csv")` |
| `pd.to_datetime()` | Chuyển sang kiểu datetime | `pd.to_datetime(df["date"])` |
| `.dt.year` | Trích xuất năm | `df["date"].dt.year` |
| `.value_counts()` | Đếm số lượng mỗi giá trị | `df["col"].value_counts()` |

### **⚠️ Lỗi thường gặp:**
❌ Quên rằng `read_html()` trả về **list**, không phải DataFrame  
❌ Không kiểm tra số lượng bảng trước khi lấy `tables[0]`  
❌ URL không tồn tại hoặc không có bảng nào  
❌ Đọc lại dữ liệu từ web nhiều lần (tốn thời gian & băng thông)

### **💡 Tips:**
- Luôn kiểm tra `len(tables)` trước khi truy cập
- Lưu dữ liệu vào CSV để tránh đọc lại từ web
- Sử dụng lại biến đã có thay vì đọc lại dữ liệu

---


# **4. Đọc Dữ Liệu Từ XML (RSS Feed)**

> **💡 MỤC TIÊU PHẦN NÀY:**  
> Học cách đọc và xử lý dữ liệu XML từ RSS Feed (nguồn tin tức tự động)  
> 
> **🎯 KẾT QUẢ:** Sau phần này, bạn sẽ biết cách:
> - Hiểu cấu trúc XML và RSS Feed
> - Đọc tin tức tự động từ các trang web
> - Trích xuất thông tin từ RSS
> - Lọc và phân tích dữ liệu tin tức

---

## **Giới thiệu XML và RSS**

**XML (Extensible Markup Language):** 
- Là một ngôn ngữ đánh dấu dùng để lưu trữ và truyền tải dữ liệu theo cấu trúc cây
- Sử dụng các thẻ (tag) tùy chỉnh để mô tả dữ liệu
- Dễ đọc bởi cả máy tính và con người

**RSS (Really Simple Syndication):**
- Là một dạng file XML đặc biệt
- Dùng để cung cấp nội dung cập nhật tự động từ website (tin tức, blog, podcast)
- Giống như "đăng ký kênh" để nhận tin tức mới nhất

> **🤔 Tại sao học RSS?**  
> - Tự động thu thập tin tức từ nhiều nguồn  
> - Không cần vào từng website  
> - Dữ liệu có cấu trúc sẵn, dễ xử lý


---

### **📊 So sánh các định dạng dữ liệu**

| Đặc điểm | CSV | JSON | XML/RSS |
|----------|-----|------|---------|
| **Cấu trúc** | Bảng đơn giản | Cặp key-value, lồng nhau | Thẻ đóng/mở, phân cấp |
| **Dễ đọc** | ✅✅✅ Rất dễ | ✅✅ Khá dễ | ✅ Khó hơn |
| **Phù hợp với** | Dữ liệu dạng bảng | API, dữ liệu phức tạp | RSS Feed, tài liệu có cấu trúc |
| **Kích thước file** | Nhỏ | Trung bình | Lớn (nhiều thẻ đóng/mở) |
| **Đọc bằng Pandas** | `pd.read_csv()` | `pd.read_json()` | Dùng BeautifulSoup + DataFrame |

### **🌍 Ứng dụng thực tế của RSS:**

**Ví dụ 1: Theo dõi tin tức chứng khoán**
- Đọc RSS từ CafeF, VNExpress mỗi ngày
- Tìm tin về công ty quan tâm (VinGroup, Viettel...)
- Tự động gửi email cảnh báo

**Ví dụ 2: Phân tích xu hướng thị trường**
- Thu thập tin tức từ nhiều nguồn
- Đếm tần suất từ khóa
- Phát hiện chủ đề "hot"

**Ví dụ 3: Nghiên cứu học thuật**
- Theo dõi blog công nghệ
- Thu thập bài nghiên cứu mới
- Tạo database kiến thức


## **4.1. XML và RSS Feed là gì?**


**Ví dụ:**
```
<item>
    <title>Tin tức mới nhất</title>
    <description>Nội dung tóm tắt...</description>
    <link>https://example.com/news</link>
</item>
```
**RSS Feed (Really Simple Syndication):**

* Là một dạng tệp XML được sử dụng để cung cấp nội dung cập nhật tự động từ các trang web (như blog, tin tức, podcast).

* RSS Feed thường có cấu trúc chuẩn với các thẻ như `<channel>, <item>, <title>, <link>, <description>`, v.v.

* Một RSS Feed điển hình có dạng như sau:
```
<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
    <channel>
        <title>Tên trang web</title>
        <link>https://example.com</link>
        <description>Mô tả trang web</description>
        <item>
            <title>Tiêu đề bài viết 1</title>
            <link>https://example.com/post1</link>
            <description>Tóm tắt bài viết 1</description>
            <pubDate>Mon, 24 Aug 2025 11:00:00 GMT</pubDate>
        </item>
        <item>
            <title>Tiêu đề bài viết 2</title>
            <link>https://example.com/post2</link>
            <description>Tóm tắt bài viết 2</description>
            <pubDate>Mon, 24 Aug 2025 10:00:00 GMT</pubDate>
        </item>
    </channel>
</rss>
```

* `XML` thường được sử dụng trong các nguồn cấp `RSS`.
* Sử dụng `BeautifulSoup` để phân tích `XML` và chuyển thành `DataFrame`.



## **4.2. Ví dụ thực tế: Đọc tin tức chứng khoán từ CafeF**

### **📋 Quy trình đọc RSS Feed:**

```
📰 Trang web CafeF
    ↓
📡 RSS Feed (file XML)
    ↓
🔍 BeautifulSoup (Phân tích cú pháp XML)
    ↓
🔄 Vòng lặp qua các <item>
    ↓
📝 Trích xuất: title, link, pubDate, description
    ↓
📋 Tạo danh sách dictionary
    ↓
📊 Chuyển thành Pandas DataFrame
```

### **Các bước chi tiết:**

**Bước 1:** Gửi HTTP request để lấy nội dung RSS

**Bước 2:** Parse (phân tích) nội dung XML bằng BeautifulSoup

**Bước 3:** Tìm tất cả thẻ `<item>` (mỗi item = 1 bản tin)

**Bước 4:** Với mỗi item, trích xuất 4 trường: title, link, pubDate, description

**Bước 5:** Lưu vào danh sách dictionary

**Bước 6:** Chuyển danh sách thành DataFrame

---

### **Code minh họa:**

In [None]:
# ============ BƯỚC 1: Import thư viện ============
import requests                      # Gửi HTTP request
from bs4 import BeautifulSoup        # Phân tích XML/HTML
import pandas as pd                  # Xử lý dữ liệu

# ============ BƯỚC 2: Xác định URL RSS ============
# URL của RSS feed tin tức chứng khoán trên CafeF
url = "https://cafef.vn/thi-truong-chung-khoan.rss"

# ============ BƯỚC 3: Gửi request và lấy nội dung ============
print("📡 Đang tải RSS feed từ CafeF...")
res = requests.get(url)
print(f"✅ Tải thành công! (Status code: {res.status_code})")

# ============ BƯỚC 4: Parse XML bằng BeautifulSoup ============
soup = BeautifulSoup(res.content, 'xml')
print(f"✅ Parse XML thành công!")

# ============ BƯỚC 5: Trích xuất dữ liệu ============
data = []  # Danh sách lưu các bản tin

# Duyệt qua TẤT CẢ thẻ <item> (mỗi item = 1 bản tin)
for item in soup.find_all('item'):
    # Trích xuất 4 trường quan trọng:
    data.append({
        'title': item.find('title').text,           # Tiêu đề
        'link': item.find('link').text,             # Link bài viết
        'pubDate': item.find('pubDate').text,       # Ngày xuất bản
        'description': item.find('description').text # Mô tả
    })

print(f"✅ Đã trích xuất {len(data)} bản tin!")

# ============ BƯỚC 6: Chuyển thành DataFrame ============
df_rss = pd.DataFrame(data)

print(f"\n📊 Kích thước DataFrame: {df_rss.shape[0]} dòng × {df_rss.shape[1]} cột")
print("\n📰 5 bản tin mới nhất:")
print(df_rss.head())


                                               title  \
0  Tự doanh CTCK bất ngờ quay đầu bán ròng hơn 1....   
1  Chứng khoán SSI hợp tác với Nasdaq trên 3 lĩnh...   
2  Một công ty dược ở Đà Nẵng bị truy thu và xử p...   
3  Khối ngoại trở lại mua ròng sau quyết định nân...   
4  Top 10 thị phần môi giới HNX quý 3/2025: Nhiều...   

                                                link  \
0  https://cafef.vn/tu-doanh-ctck-bat-ngo-quay-da...   
1  https://cafef.vn/chung-khoan-ssi-hop-tac-voi-n...   
2  https://cafef.vn/mot-cong-ty-duoc-o-da-nang-bi...   
3  https://cafef.vn/khoi-ngoai-tro-lai-mua-rong-s...   
4  https://cafef.vn/top-10-thi-phan-moi-gioi-hnx-...   

                         pubDate  \
0  Wed, 08 Oct 25 17:42:00 +0700   
1  Wed, 08 Oct 25 17:02:00 +0700   
2  Wed, 08 Oct 25 16:26:00 +0700   
3  Wed, 08 Oct 25 15:45:00 +0700   
4  Wed, 08 Oct 25 15:27:00 +0700   

                                         description  
0  <a href="https://cafef.vn/tu-doanh-ctck-bat-ng...  

---

## **4.3. Lọc và tìm kiếm thông tin cụ thể**

Sau khi có DataFrame chứa tin tức, chúng ta có thể lọc để tìm các bản tin về chủ đề cụ thể.

> **🎯 Ví dụ:** Tìm tất cả tin tức về "Vietnam Airlines"

**Phương pháp:** Sử dụng `.str.contains()` để tìm kiếm chuỗi trong cột

**Tham số quan trọng:**
- `case=False`: Không phân biệt hoa thường (Vietnam = vietnam = VIETNAM)
- `na=False`: Bỏ qua các giá trị NaN (tránh lỗi)

In [None]:
# Sử dụng biến 'df_rss' đã có từ phần 4.2

# Lọc các bản tin có chứa "Vietnam Airlines" trong tiêu đề
print("🔍 Đang tìm kiếm tin tức về 'Vietnam Airlines'...\n")

df_hvn = df_rss[df_rss['title'].str.contains('vietnam airlines', case=False, na=False)]

# Hiển thị kết quả
if len(df_hvn) > 0:
    print(f"✅ Tìm thấy {len(df_hvn)} bản tin về Vietnam Airlines:")
    print(df_hvn[['title', 'pubDate']])  # Chỉ hiển thị tiêu đề và ngày
else:
    print("❌ Không tìm thấy tin nào về Vietnam Airlines")

# Hiển thị chi tiết bản tin đầu tiên (nếu có)
if len(df_hvn) > 0:
    print("\n📰 Chi tiết bản tin đầu tiên:")
    print(df_hvn.iloc[0])

                                                 title  \
352  Vietnam Airlines tính chi hơn 10 tỷ USD mua 30...   

                                                  link  \
352  https://cafef.vn/vietnam-airlines-tinh-chi-hon...   

                           pubDate  \
352  Mon, 22 Sep 25 13:28:00 +0700   

                                           description  
352  <a href="https://cafef.vn/vietnam-airlines-tin...  


---

## 📌 **TÓM TẮT SECTION 4: ĐỌC DỮ LIỆU XML/RSS**

### **✅ Kiến thức đã học:**
1. ✅ Hiểu cấu trúc XML và RSS Feed
2. ✅ Sử dụng `requests` để tải RSS từ web
3. ✅ Sử dụng `BeautifulSoup` để parse XML
4. ✅ Trích xuất dữ liệu từ các thẻ XML
5. ✅ Tạo DataFrame từ danh sách dictionary
6. ✅ Lọc dữ liệu với `.str.contains()`

### **🔑 Thư viện & Hàm quan trọng:**
| Thư viện/Hàm | Mục đích | Ví dụ |
|--------------|----------|-------|
| `requests.get(url)` | Tải nội dung từ web | `res = requests.get(url)` |
| `BeautifulSoup(content, 'xml')` | Parse XML | `soup = BeautifulSoup(res.content, 'xml')` |
| `soup.find_all('item')` | Tìm tất cả thẻ | `items = soup.find_all('item')` |
| `item.find('title').text` | Lấy text trong thẻ | `title = item.find('title').text` |
| `.str.contains()` | Tìm kiếm chuỗi | `df[df['col'].str.contains('keyword')]` |

### **⚠️ Lỗi thường gặp:**
❌ Quên import `BeautifulSoup` từ `bs4`  
❌ Không chỉ định parser là `'xml'` (mặc định là HTML)  
❌ Truy cập thẻ không tồn tại → gây lỗi `AttributeError`  
❌ Quên xử lý `case=False, na=False` khi dùng `.str.contains()`

### **💡 Ứng dụng thực tế:**
- 📰 Thu thập tin tức tự động
- 📊 Phân tích xu hướng thị trường
- 🔔 Tạo hệ thống cảnh báo tin tức
- 📚 Xây dựng database kiến thức

---


# **5. Đọc và Ghi Dữ Liệu Từ Microsoft Excel**

> **💡 MỤC TIÊU PHẦN NÀY:**  
> Học cách đọc và ghi dữ liệu từ/vào file Excel  
> 
> **🎯 KẾT QUẢ:** Sau phần này, bạn sẽ biết cách:
> - Đọc dữ liệu từ file Excel (.xlsx, .xls)
> - Đọc từ nhiều sheet khác nhau
> - Ghi dữ liệu ra file Excel
> - Làm việc với nhiều sheet cùng lúc

---

## **Giới thiệu**

* Pandas hỗ trợ đọc/ghi tệp Excel (XLS/XLSX) qua thư viện `openpyxl` (cho XLSX) và `xlrd` (cho XLS).
* **Cần cài đặt:** `pip install openpyxl xlrd`

> **⚠️ LƯU Ý:**  
> Nếu gặp lỗi ImportError với openpyxl, hãy upgrade:  
> `pip install --upgrade openpyxl`  
> (Pandas yêu cầu openpyxl version 3.1.0+)

## 5.1. Ví dụ 11: Đọc tệp Excel

In [18]:
import pandas as pd                  # Thư viện xử lý dữ liệu dạng bảng
xlsx = pd.ExcelFile("https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex6.xlsx")
df_excel_sheet2 = xlsx.parse(sheet_name="Sheet2")
print("================Sheet 2=======================")
print(df_excel_sheet2)
print("================Sheet 1===================")
df_excel_sheet1 = xlsx.parse(sheet_name="Sheet1")
print(df_excel_sheet1)

    Datetime  AAPL  MSFT  GOOGL  AMZN
0 2023-01-01   130   240     90   100
1 2023-01-02   132   242     91   102
2 2023-01-03   131   241     92   101
3 2023-01-04   133   243     91   103
4 2023-01-05   135   245     93   104
5 2023-01-06   137   246     94   105
6 2023-01-07   138   248     96   106
7 2023-01-08   140   249     95   107
8 2023-01-09   139   247     97   108
9 2023-01-10   141   250     98   109
  Ho va ten  Diem_Toan  Diem_Van  Diem_Anh  Diem_Ly            Ghi_chu
0        An         88      85.0      65.0     96.0                NaN
1      Bình         92      57.0      98.0     52.0  Ko co gi dac biet
2       Chi         51      73.0       NaN     87.0                NaN
3      Dung         91      90.0      56.0     95.0                NaN
4        Ha         67      99.0      86.0     76.0                NaN
5      Hanh         76       NaN      72.0     90.0                NaN
6     Khanh         58      69.0      60.0     88.0                NaN
7       Lan   

## 5.2. Ghi dữ liệu ra Excel
**Quy trình**
* Import thư viện pandas.

* Chuẩn bị dữ liệu dưới dạng DataFrame (có thể đọc từ Excel, CSV, JSON, web, hoặc tạo trực tiếp).

* Tạo đối tượng ExcelWriter hoặc chỉ định tên file Excel cần ghi.

* Ghi dữ liệu từ DataFrame vào file Excel bằng .to_excel(), có thể chọn sheet_name, index, header, v.v.

* Đóng writer (hoặc dùng with pd.ExcelWriter(...) as writer: để tự động đóng).

**Kết quả:** Dữ liệu trong DataFrame sẽ được lưu vào file Excel mới hoặc ghi đè vào file có sẵn.



In [19]:
import pandas as pd                  # Thư viện xử lý dữ liệu dạng bảng
xlsx = pd.ExcelFile("https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex6.xlsx")
df_excel_sheet1 = xlsx.parse(sheet_name="Sheet1")
df_excel_sheet2 = xlsx.parse(sheet_name="Sheet2")

writer1 = pd.ExcelWriter("ex6_1.xlsx")
writer2 = pd.ExcelWriter("ex6_2.xlsx")

df_excel_sheet1.to_excel(writer1, sheet_name="Sheet1")
df_excel_sheet2.to_excel(writer2, sheet_name="Sheet2")

writer1.close()
writer2.close()

**Giải thích:**

* `pd.ExcelFile`: Tải toàn bộ tệp `Excel` để truy cập nhiều sheet.
* `parse`: Đọc sheet cụ thể thành `DataFrame`.
* `to_excel`: Ghi `DataFrame` ra tệp `Excel`, có thể chỉ định sheet.

# **6. Tương Tác Với API Web**

* API (Application Programming Interface - Giao diện lập trình ứng dụng) web là một giao diện cho phép các ứng dụng hoặc thiết bị khác nhau giao tiếp với nhau qua internet, thường sử dụng giao thức HTTP/HTTPS.
* Nó hoạt động như một cầu nối, cho phép gửi yêu cầu (request) và nhận phản hồi (response) dưới dạng dữ liệu (thường là JSON hoặc XML).
* API web cung cấp dữ liệu qua `JSON` hoặc `XML`. Thư viện `requests` là công cụ phổ biến để truy cập `API`.

##Quy trình chung


* Import thư viện requests.

* Xác định URL API cần truy cập (ví dụ: danh sách tỉnh thành Việt Nam).

* Gửi request đến API (thường là GET, ngoài ra có thể là POST, PUT, DELETE tuỳ mục đích).

* Kiểm tra phản hồi từ server qua status_code.

> * 200 → thành công.

> * Các mã khác (400, 404, 500...) báo lỗi.

* Xử lý dữ liệu phản hồi:

> * Nếu API trả về JSON → dùng .json() để chuyển thành đối tượng Python (list/dict).

> * Nếu API trả về text hoặc HTML → dùng .text.

* Sử dụng dữ liệu: in ra, lưu vào file, hoặc chuyển đổi thành DataFrame để phân tích.

* Xử lý lỗi (nếu có): thông báo lỗi, retry, hoặc xử lý ngoại lệ.

**Ví dụ:** Lấy danh sách tỉnh thành Việt Nam:

In [20]:
import requests

# URL API lấy danh sách tỉnh thành Việt Nam
url = "https://provinces.open-api.vn/api/?depth=1"

# Gửi request GET đến API
response = requests.get(url)

# Kiểm tra trạng thái phản hồi
if response.status_code == 200:
    data = response.json()  # Dữ liệu trả về dạng JSON
    print("Danh sách tỉnh thành Việt Nam:")
    for province in data:
        print(f"- {province['name']}")
else:
    print("Không thể lấy dữ liệu. Mã lỗi:", response.status_code)

Danh sách tỉnh thành Việt Nam:
- Thành phố Hà Nội
- Tỉnh Hà Giang
- Tỉnh Cao Bằng
- Tỉnh Bắc Kạn
- Tỉnh Tuyên Quang
- Tỉnh Lào Cai
- Tỉnh Điện Biên
- Tỉnh Lai Châu
- Tỉnh Sơn La
- Tỉnh Yên Bái
- Tỉnh Hoà Bình
- Tỉnh Thái Nguyên
- Tỉnh Lạng Sơn
- Tỉnh Quảng Ninh
- Tỉnh Bắc Giang
- Tỉnh Phú Thọ
- Tỉnh Vĩnh Phúc
- Tỉnh Bắc Ninh
- Tỉnh Hải Dương
- Thành phố Hải Phòng
- Tỉnh Hưng Yên
- Tỉnh Thái Bình
- Tỉnh Hà Nam
- Tỉnh Nam Định
- Tỉnh Ninh Bình
- Tỉnh Thanh Hóa
- Tỉnh Nghệ An
- Tỉnh Hà Tĩnh
- Tỉnh Quảng Bình
- Tỉnh Quảng Trị
- Thành phố Huế
- Thành phố Đà Nẵng
- Tỉnh Quảng Nam
- Tỉnh Quảng Ngãi
- Tỉnh Bình Định
- Tỉnh Phú Yên
- Tỉnh Khánh Hòa
- Tỉnh Ninh Thuận
- Tỉnh Bình Thuận
- Tỉnh Kon Tum
- Tỉnh Gia Lai
- Tỉnh Đắk Lắk
- Tỉnh Đắk Nông
- Tỉnh Lâm Đồng
- Tỉnh Bình Phước
- Tỉnh Tây Ninh
- Tỉnh Bình Dương
- Tỉnh Đồng Nai
- Tỉnh Bà Rịa - Vũng Tàu
- Thành phố Hồ Chí Minh
- Tỉnh Long An
- Tỉnh Tiền Giang
- Tỉnh Bến Tre
- Tỉnh Trà Vinh
- Tỉnh Vĩnh Long
- Tỉnh Đồng Tháp
- Tỉnh An Giang
- Tỉnh K

**Giải thích:**

* requests.get(url): gửi yêu cầu HTTP GET đến API.

* response.json(): chuyển dữ liệu trả về từ JSON sang Python dictionary/list.

* province['name']: truy xuất tên tỉnh từ dữ liệu JSON.

* Nếu lỗi, in ra status_code (ví dụ: 404, 500).

# **7. Tương Tác Với Cơ Sở Dữ Liệu (SQL)**
`Pandas` hỗ trợ tương tác với cơ sở dữ liệu `SQL` thông qua hai phương pháp chính:

* Sử dụng `sqlite3`: Đây là mô-đun tích hợp sẵn trong Python, lý tưởng cho các cơ sở dữ liệu `SQLite` nhẹ và không cần cài đặt thêm. `SQLite` lưu trữ dữ liệu trong một tệp đơn (hoặc trong bộ nhớ), phù hợp cho các ứng dụng nhỏ hoặc thử nghiệm.
* Sử dụng `SQLAlchemy`: Thư viện này cung cấp một lớp trừu tượng hóa, cho phép làm việc với nhiều `DBMS` (`SQLite`, `MySQL`, `PostgreSQL`, v.v.) mà không cần thay đổi code nhiều. `SQLAlchemy` phù hợp cho các ứng dụng phức tạp hoặc khi làm việc với nhiều loại cơ sở dữ liệu.



## **7.1. Các Bước Tương Tác Với Cơ Sở Dữ Liệu**

Quy trình làm việc với cơ sở dữ liệu trong `Pandas` thường bao gồm:

* Kết nối đến cơ sở dữ liệu: Sử dụng `sqlite3.connect`.

* Tạo bảng: Xây dựng cấu trúc bảng với các cột và kiểu dữ liệu phù hợp.

* Chèn dữ liệu: Thêm dữ liệu vào bảng.

* Truy vấn dữ liệu: Thực hiện truy vấn SQL và chuyển kết quả vào `DataFrame`.

* Đóng kết nối: Đảm bảo tài nguyên được giải phóng sau khi sử dụng.

## **7.2. Ví Dụ Sử Dụng sqlite3**

Tạo một cơ sở dữ liệu `SQLite` có tên `mydata.sqlite` và một bảng `test` với các cột:

a: Chuỗi ký tự (VARCHAR(20)).

b: Chuỗi ký tự (VARCHAR(20)).

c: Số thực (REAL).

d: Số nguyên (INTEGER).

In [21]:
import sqlite3

# Kết nối đến cơ sở dữ liệu (tạo tệp mydata.sqlite nếu chưa tồn tại)
con = sqlite3.connect("mydata.sqlite")

# Tạo bảng test
query = """
CREATE TABLE test
(a VARCHAR(20),
 b VARCHAR(20),
 c REAL,
 d INTEGER
);
"""

try:
    con.execute(query)
    con.commit()
except sqlite3.OperationalError as e:
    print(f"Lỗi khi tạo bảng (có thể bảng đã tồn tại): {e}")

**Giải thích:**

* `sqlite3.connect("mydata.sqlite")`: Tạo hoặc kết nối đến tệp cơ sở dữ liệu SQLite. Nếu tệp chưa tồn tại, nó sẽ được tạo.

* Tạo bảng: Câu lệnh SQL `CREATE TABLE` định nghĩa bảng `test` với 4 cột và kiểu dữ liệu tương ứng.

* `con.execute(query)`: Thực thi câu lệnh SQL để tạo bảng.
`con.commit()`: Lưu thay đổi vào cơ sở dữ liệu.

* Xử lý lỗi: Nếu bảng đã tồn tại, `OperationalError` sẽ được bắt để tránh chương trình bị dừng.



## **7.3 Chèn Dữ Liệu**
Chèn một số hàng dữ liệu vào bảng `test`.

In [22]:

import sqlite3

# Câu lệnh INSERT
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"

# Tạo bảng test
query = """
CREATE TABLE test
(a VARCHAR(20),
 b VARCHAR(20),
 c REAL,
 d INTEGER
);
"""

try:
    con.execute(query)
    con.commit()
except sqlite3.OperationalError as e:
    print(f"Lỗi khi tạo bảng (có thể bảng đã tồn tại): {e}")
    exit(1)

# Kết nối đến cơ sở dữ liệu (tạo tệp mydata.sqlite nếu chưa tồn tại)
con = sqlite3.connect("mydata.sqlite")

# Dữ liệu mẫu
data_sql = [
    ("Atlanta", "Georgia", 1.25, 6),
    ("Tallahassee", "Florida", 2.6, 3),
    ("Sacramento", "California", 1.7, 5)
]

try:
    con.executemany(stmt, data_sql)
    con.commit()
    print(f"Đã chèn xong")
except sqlite3.IntegrityError as e:
    print(f"Lỗi khi chèn dữ liệu (có thể dữ liệu đã tồn tại): {e}")

Lỗi khi tạo bảng (có thể bảng đã tồn tại): table test already exists
Đã chèn xong


**Giải thích:**

* `data_sql`: Danh sách các tuple, mỗi tuple tương ứng với một hàng dữ liệu cho bảng `test`.

* `executemany`: Chèn nhiều hàng cùng lúc, sử dụng dấu ? làm `placeholder`.

* `con.commit()`: Lưu dữ liệu vào cơ sở dữ liệu.

* Xử lý lỗi: Bắt lỗi `IntegrityError` để xử lý các vấn đề như trùng khóa chính hoặc vi phạm ràng buộc.

## **7.4. Truy Vấn Dữ Liệu**

Sử dụng `sqlite3` để truy vấn dữ liệu từ bảng `test` và chuyển vào `DataFrame`.

In [23]:
import sqlite3
con = sqlite3.connect("mydata.sqlite")

# Truy vấn tất cả dữ liệu từ bảng test
cursor = con.execute("SELECT * FROM test")
rows = cursor.fetchall()

# Chuyển kết quả thành DataFrame
df_sqlite = pd.DataFrame(rows, columns=[x[0] for x in cursor.description])
print(df_sqlite)

             a           b     c  d
0      Atlanta     Georgia  1.25  6
1  Tallahassee     Florida  2.60  3
2   Sacramento  California  1.70  5


**Giải thích:**

* `con.execute("SELECT * FROM test")`: Thực thi truy vấn `SQL` để lấy tất cả dữ liệu từ bảng `test`.
* `cursor.fetchall()`: Trả về danh sách các `tuple`, mỗi `tuple` là một hàng dữ liệu.
* `cursor.description`: Chứa thông tin cột, ở đây lấy tên cột (a, b, c, d) để tạo `DataFrame`.
* Tạo `DataFrame`: Sử dụng danh sách `tuple` và tên cột để xây dựng `DataFrame`.

## **7.5. Đóng Kết Nối**

Đóng kết nối để giải phóng tài nguyên.

In [24]:
con.close()

**Giải thích:**
* `con.close()`: Đóng kết nối SQLite để tránh rò rỉ tài nguyên.
* Nếu cần xóa tệp cơ sở dữ liệu sau khi thử nghiệm:

In [25]:
import os
if os.path.exists("mydata.sqlite"):
    os.remove("mydata.sqlite")

---

# 🎯 **TỔNG KẾT BÀI GIẢNG**

## **📚 Tóm tắt toàn bộ nội dung**

Trong bài giảng này, chúng ta đã học cách nhập dữ liệu từ 7 nguồn khác nhau:

| STT | Nguồn dữ liệu | Hàm chính | Độ khó |
|-----|--------------|-----------|--------|
| 1️⃣ | **File CSV** | `pd.read_csv()` | ⭐ Dễ |
| 2️⃣ | **File JSON** | `pd.read_json()` | ⭐ Dễ |
| 3️⃣ | **Trang Web (HTML)** | `pd.read_html()` | ⭐⭐ Trung bình |
| 4️⃣ | **RSS Feed (XML)** | `BeautifulSoup + pd.DataFrame()` | ⭐⭐⭐ Khó |
| 5️⃣ | **File Excel** | `pd.read_excel()` | ⭐⭐ Trung bình |
| 6️⃣ | **Web API** | `requests.get() + .json()` | ⭐⭐ Trung bình |
| 7️⃣ | **SQL Database** | `pd.read_sql()` hoặc `sqlite3` | ⭐⭐⭐ Khó |

---

## **🔑 Các kỹ năng quan trọng đã học:**

### **1. Đọc dữ liệu**
- ✅ CSV: `pd.read_csv(path)` với các tham số: `header`, `names`, `index_col`, `sep`, `skiprows`
- ✅ JSON: `pd.read_json(path)`
- ✅ HTML: `pd.read_html(url)` → trả về **list** DataFrame
- ✅ XML/RSS: `BeautifulSoup` + vòng lặp + `pd.DataFrame()`
- ✅ Excel: `pd.ExcelFile()` + `.parse(sheet_name)`
- ✅ API: `requests.get()` + `.json()`
- ✅ SQL: `sqlite3.connect()` + `.execute()`

### **2. Xử lý dữ liệu**
- ✅ Kiểm tra dữ liệu thiếu: `.isnull()`, `.isnull().sum()`
- ✅ Xử lý dữ liệu thiếu: `.dropna()`, `.fillna()`
- ✅ Chuyển đổi kiểu: `pd.to_datetime()`
- ✅ Trích xuất thông tin: `.dt.year`, `.dt.month`

### **3. Lưu dữ liệu**
- ✅ Lưu CSV: `.to_csv(filename)`
- ✅ Lưu Excel: `.to_excel(writer, sheet_name)`

### **4. Phân tích dữ liệu**
- ✅ Đếm theo nhóm: `.value_counts()`
- ✅ Lọc dữ liệu: Boolean indexing, `.str.contains()`
- ✅ Sắp xếp: `.sort_index()`, `.sort_values()`

---


---

# 🏋️ **BÀI TẬP THỰC HÀNH**

## **Phần 1: Bài tập cơ bản (⭐)**

### **Bài 1.1: Đọc CSV từ GitHub**
Đọc file dữ liệu điểm sinh viên từ URL sau và hiển thị 10 dòng đầu:
```
https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex1.csv
```

**Gợi ý:** Sử dụng `pd.read_csv()` và `.head(10)`

---

### **Bài 1.2: Kiểm tra dữ liệu thiếu**
Từ file ở Bài 1.1:
1. Kiểm tra xem có bao nhiêu dữ liệu thiếu trong mỗi cột
2. Loại bỏ các dòng có dữ liệu thiếu
3. In ra số dòng còn lại

**Gợi ý:** `.isnull().sum()`, `.dropna()`, `len(df)`

---

## **Phần 2: Bài tập trung bình (⭐⭐)**

### **Bài 2.1: Đọc bảng từ Wikipedia**
Đọc bảng GDP của các quốc gia từ Wikipedia:
```
https://vi.wikipedia.org/wiki/Danh_sách_quốc_gia_theo_GDP_(danh_nghĩa)
```

**Yêu cầu:**
1. Đọc tất cả bảng từ trang web
2. In ra số lượng bảng tìm được
3. Chọn và hiển thị bảng phù hợp nhất

**Gợi ý:** `pd.read_html()`, `len(tables)`, `tables[0]`

---

### **Bài 2.2: Đọc RSS từ VNExpress**
Đọc RSS tin tức từ VNExpress:
```
https://vnexpress.net/rss/kinh-doanh.rss
```

**Yêu cầu:**
1. Đọc và parse RSS feed
2. Chuyển thành DataFrame
3. Đếm số lượng bản tin
4. Tìm bản tin có từ "chứng khoán" trong tiêu đề

**Gợi ý:** `requests`, `BeautifulSoup`, `.str.contains()`

---

## **Phần 3: Bài tập nâng cao (⭐⭐⭐)**

### **Bài 3.1: Thu thập và so sánh dữ liệu**
**Đề bài:** Thu thập dữ liệu giá Bitcoin từ API

API: `https://api.coindesk.com/v1/bpi/currentprice.json`

**Yêu cầu:**
1. Gửi request đến API
2. Parse JSON response
3. Trích xuất giá Bitcoin theo USD, EUR, GBP
4. Tạo DataFrame với 3 cột: Currency, Price, Description

**Gợi ý:** `requests.get()`, `.json()`, `pd.DataFrame()`

---

### **Bài 3.2: Phân tích đa nguồn**
**Đề bài:** Kết hợp dữ liệu từ nhiều nguồn

**Bước 1:** Đọc dữ liệu tỉnh thành từ API: `https://provinces.open-api.vn/api/?depth=1`

**Bước 2:** Đếm số tỉnh thành theo khu vực (Miền Bắc, Trung, Nam)

**Bước 3:** Lưu kết quả ra file Excel với sheet tên "Tinh_Thanh"

**Gợi ý:** Cần tự phân loại khu vực dựa trên tên tỉnh

---

### **Bài 3.3: Mini Project**
**Đề bài:** Xây dựng hệ thống theo dõi tin tức chứng khoán

**Yêu cầu:**
1. Đọc RSS từ ít nhất 2 nguồn (CafeF, VNExpress)
2. Gộp dữ liệu thành một DataFrame
3. Lọc tin về các mã cổ phiếu: VNM, VCB, HPG
4. Lưu kết quả ra Excel với mỗi mã một sheet
5. Đếm số tin tức về mỗi mã

**Bonus:** Tạo biểu đồ cột (bar chart) cho số lượng tin về mỗi mã

---


---

# 💡 **TIPS & TRICKS CHO SINH VIÊN**

## **📖 Cách học hiệu quả:**

### **1. Học theo thứ tự độ khó tăng dần**
```
CSV → JSON → Excel → Web HTML → API → RSS/XML → SQL
⭐     ⭐      ⭐⭐      ⭐⭐        ⭐⭐    ⭐⭐⭐      ⭐⭐⭐
```

### **2. Thực hành thường xuyên**
- ✅ Chạy lại từng ví dụ trong bài giảng
- ✅ Thay đổi tham số để xem kết quả khác nhau
- ✅ Áp dụng vào dữ liệu thực tế (điểm thi, doanh thu, v.v.)

### **3. Xử lý lỗi đúng cách**
```python
# Luôn kiểm tra trước khi truy cập
if len(tables) > 0:
    df = tables[0]
else:
    print("Không tìm thấy bảng nào!")
    
# Xử lý exception
try:
    df = pd.read_csv(url)
except Exception as e:
    print(f"Lỗi: {e}")
```

---

## **⚠️ Những sai lầm thường gặp:**

### **Top 5 lỗi phổ biến:**

**1. Quên kiểu dữ liệu trả về**
```python
# ❌ SAI
tables = pd.read_html(url)
print(tables.head())  # Lỗi! tables là list, không phải DataFrame

# ✅ ĐÚNG
tables = pd.read_html(url)
df = tables[0]
print(df.head())
```

**2. Không kiểm tra dữ liệu thiếu**
```python
# ❌ SAI - Trực tiếp tính toán
df['total'] = df['a'] + df['b']  # Có thể bị NaN

# ✅ ĐÚNG - Kiểm tra và xử lý trước
print(df.isnull().sum())
df = df.dropna()  # hoặc fillna()
df['total'] = df['a'] + df['b']
```

**3. Đọc lại dữ liệu không cần thiết**
```python
# ❌ SAI - Đọc lại nhiều lần
df1 = pd.read_csv(url)
df2 = pd.read_csv(url)  # Tải lại từ web!

# ✅ ĐÚNG - Đọc một lần, dùng nhiều lần
df = pd.read_csv(url)
df1 = df.copy()
df2 = df.copy()
```

**4. Không xử lý encoding**
```python
# ❌ SAI
df = pd.read_csv("file_tieng_viet.csv")  # Có thể lỗi với tiếng Việt

# ✅ ĐÚNG
df = pd.read_csv("file_tieng_viet.csv", encoding='utf-8')
# Hoặc encoding='latin-1' nếu utf-8 không work
```

**5. Quên đóng kết nối database**
```python
# ❌ SAI
con = sqlite3.connect("db.sqlite")
# ... làm việc ...
# Không đóng kết nối → rò rỉ tài nguyên

# ✅ ĐÚNG
con = sqlite3.connect("db.sqlite")
# ... làm việc ...
con.close()  # Luôn đóng kết nối!
```

---

## **🚀 Lộ trình học tiếp:**

### **Bước tiếp theo:**
1. **Bài 5: Data Cleaning** - Làm sạch và chuẩn hóa dữ liệu
2. **Bài 6: Data Transformation** - Biến đổi và tạo features mới
3. **Bài 7: Data Visualization** - Vẽ biểu đồ và trực quan hóa
4. **Bài 8: Machine Learning** - Xây dựng mô hình dự đoán

### **Tài liệu tham khảo:**
- 📚 Pandas Documentation: https://pandas.pydata.org/docs/
- 📚 BeautifulSoup: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- 📚 Requests: https://requests.readthedocs.io/

---

## ✅ **Checklist trước khi kết thúc:**

- [ ] Đã chạy thử tất cả code cells
- [ ] Hiểu rõ sự khác biệt giữa các định dạng (CSV, JSON, XML)
- [ ] Biết cách xử lý dữ liệu thiếu
- [ ] Biết cách lọc và phân tích dữ liệu
- [ ] Đã thử làm ít nhất 2 bài tập
- [ ] Đã lưu notebook và kết quả

---

# 🎓 **KẾT THÚC BÀI GIẢNG**

> **Chúc các bạn học tốt và thành công trong việc ứng dụng Data Science vào thực tế!** 🚀
> 
> **Câu hỏi?** Liên hệ giảng viên qua email hoặc trong giờ học.

**Bài giảng tiếp theo:** Tiền xử lý và làm sạch dữ liệu (Data Preprocessing & Cleaning)
