# **Bài giảng 4 - Nhập và lưu trữ dữ liệu với Python**



#**Mục tiêu bài học**

* Tìm hiểu các phương pháp nhập dữ liệu từ các nguồn phổ biến.
* Giải thích chi tiết cách sử dụng các hàm của Pandas như read_csv, read_excel, read_json, và read_sql.
* Đưa ra ví dụ minh họa cụ thể với code và output, kèm theo giải thích  từng tham số và trường hợp sử dụng.
* Đề cập đến các tình huống thực tế và cách xử lý các vấn đề thường gặp (dữ liệu thiếu, cấu trúc không chuẩn).

##**Các hoạt động nhập/xuất dữ liệu:**

* Đọc từ tệp văn bản: Bao gồm CSV, JSON, và XML.
* Tải từ cơ sở dữ liệu: Sử dụng SQL hoặc các hệ quản trị cơ sở dữ liệu (DBMS) như SQLite.
* Tương tác qua mạng: Lấy dữ liệu từ API web hoặc các nguồn trực tuyến.

#**1. Đọc và Lưu Dữ Liệu Ở Định Dạng Văn Bản**

Pandas cung cấp nhiều hàm để đọc dữ liệu dạng bảng và lưu trữ dưới dạng `DataFrame`. Các hàm này được thiết kế linh hoạt để xử lý nhiều định dạng tệp và các tình huống dữ liệu không chuẩn.


##**1.1. Tổng Quan Các Hàm Đọc Dữ Liệu**
Dưới đây là bảng liệt kê một số hàm phổ biến trong Pandas để đọc dữ liệu:

| STT | Hàm             | Mô tả                                                                 |
|-----|-----------------|----------------------------------------------------------------------|
| 1   | `read_csv`      | Đọc dữ liệu từ tệp CSV, phân tách bằng dấu phẩy (mặc định).          |
| 2   | `read_table`    | Đọc dữ liệu phân tách bằng ký tự tab (`\t`) (mặc định).              |
| 3   | `read_fwf`      | Đọc dữ liệu có độ rộng cột cố định (không phân tách).                |
| 4   | `read_clipboard`| Đọc dữ liệu từ clipboard (hữu ích khi sao chép bảng từ web).         |
| 5   | `read_excel`    | Đọc dữ liệu từ tệp Excel (XLS/XLSX).                                 |
| 6   | `read_json`     | Đọc dữ liệu từ chuỗi JSON.                                           |
| 7   | `read_html`     | Đọc tất cả bảng từ tài liệu HTML.                                    |
| 8   | `read_xml`      | Đọc bảng từ tệp XML.                                                 |
| 9  | `read_sql`      | Đọc kết quả truy vấn SQL vào DataFrame.                              |


Các hàm này hỗ trợ suy luận kiểu dữ liệu (data type inference), tức là `Pandas` tự động xác định kiểu dữ liệu của các cột (số nguyên, số thực, chuỗi, v.v.). Tuy nhiên, trong một số trường hợp (như ngày tháng hoặc kiểu dữ liệu tùy chỉnh), cần chỉ định kiểu dữ liệu rõ ràng để tránh sai sót.

##**1.2. Đọc Dữ Liệu CSV Cơ Bản**
* CSV (Comma-Separated Values) là một tệp văn bản (plain text) chứa dữ liệu dạng bảng.

* Mỗi dòng (row) trong file tương ứng với một bản ghi (record).

* Các cột (column/field) trong một dòng được phân tách bằng dấu phẩy (,) hoặc ký tự phân tách khác như ;, \t (tab).

* Nói cách khác, CSV là cách lưu dữ liệu dạng bảng (giống Excel) nhưng dưới dạng text đơn giản.

**Ví dụ:** file CSV ex1.csv

> Diem 1,Diem 2,Diem 3,Diem 4,Nhan xet

>1,2,3,4,Hoc luc yeu

>5,6,7,8,Hoc luc trung binh kha

>9,10,9,10,Hoc luc xuat sac





Hàm `read_csv` là công cụ chính để đọc dữ liệu CSV.

**Ví dụ:** Giả sử tệp `ex1.csv` được lưu tại [đường dẫn](https://github.com/tranhungemail/DSImageCourse/blob/main/ex1.csv)



In [None]:
#Code để đọc file ex1.csv để trên Github và hiển thị dưới dạng Markdown
import pandas as pd
from IPython.display import display, Markdown

url = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex1.csv"
df = pd.read_csv(url)
# Hiển thị 10 dòng đầu tiên thành bảng Markdown
display(Markdown(df.head(10).to_markdown()))


|    |   Diem 1 |   Diem 2 |   Diem 3 |   Diem 4 | Nhan xet               |
|---:|---------:|---------:|---------:|---------:|:-----------------------|
|  0 |        1 |        2 |        3 |        4 | Hoc luc yeu            |
|  1 |        5 |        6 |        7 |        8 | Hoc luc trung binh kha |
|  2 |        9 |       10 |        9 |       10 | Hoc luc xuat sac       |
|  3 |        5 |        6 |        5 |        6 | Trung binh             |
|  4 |        4 |        6 |        5 |        6 | Trung Binh             |
|  5 |        8 |        9 |        8 |        9 | Gioi                   |
|  6 |        2 |        1 |        2 |        1 | Hoc luc yeu            |

In [None]:
#Code để đọc file ex1.csv để trên Github
import pandas as pd
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex1.csv"
df = pd.read_csv(path) # Đọc file CSV và tạo thành một dataframe
print(df)

   Diem 1  Diem 2  Diem 3  Diem 4                Nhan xet
0       1       2       3       4             Hoc luc yeu
1       5       6       7       8  Hoc luc trung binh kha
2       9      10       9      10        Hoc luc xuat sac
3       5       6       5       6              Trung binh
4       4       6       5       6              Trung Binh
5       8       9       8       9                    Gioi
6       2       1       2       1             Hoc luc yeu


**Giải thích:**
* `read_csv` mặc định hiểu dòng đầu tiên là tên cột (header).
* Các cột được tự động suy luận kiểu dữ liệu: `Diem 1,Diem 2,Diem 3,Diem 4,Nhan xet` là số nguyên (`int`), message là chuỗi (`object`).
* `DataFrame` được tạo với chỉ số mặc định (0, 1, 2).

##**1.3. Xử Lý Tệp Không Có Header**
* Header trong CSV là dòng đầu tiên chứa tên cột.
* Một số file CSV không có header, tức là dòng đầu tiên đã là dữ liệu luôn.
**Ví dụ:**

In [None]:
#Code để đọc file ex2.csv để trên Github
import pandas as pd
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex2.csv"
df = pd.read_csv(path,header=None) # Đọc file CSV và tạo thành một dataframe
print(df)

    0      1      2                      3  4
0   1   2000   2000                But chi  1
1   5   6000  30000             Vo ghi chu  2
2   9  10000  90000        Hop but chi mau  3
3   5   6000  30000  Hop but bi Thien Long  4
4   4   5000  20000          But viet bang  5
5   8   8000  64000           Note sticker  6
6  10   2000  20000                But chi  1


In [None]:
#***Code (gán tên cột):***
import pandas as pd

print("Trước khi gán tên cho các cột")
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex2.csv"
df_default_names = pd.read_csv(path,header=None)
print(df_default_names)
print("\n\n\n")
print("===============Sau khi gán tên cho các cột=================")
names = ["So luong", "Don gia", "Thanh tien", "Ten san pham", "ID"]
df_custom_names = pd.read_csv(path, names=names)
print(df_custom_names)

Trước khi gán tên cho các cột
    0      1      2                      3  4
0   1   2000   2000                But chi  1
1   5   6000  30000             Vo ghi chu  2
2   9  10000  90000        Hop but chi mau  3
3   5   6000  30000  Hop but bi Thien Long  4
4   4   5000  20000          But viet bang  5
5   8   8000  64000           Note sticker  6
6  10   2000  20000                But chi  1




   So luong  Don gia  Thanh tien           Ten san pham  ID
0         1     2000        2000                But chi   1
1         5     6000       30000             Vo ghi chu   2
2         9    10000       90000        Hop but chi mau   3
3         5     6000       30000  Hop but bi Thien Long   4
4         4     5000       20000          But viet bang   5
5         8     8000       64000           Note sticker   6
6        10     2000       20000                But chi   1


**Giải thích:**

* `header=None`: Ngăn Pandas coi dòng đầu tiên là tiêu đề, thay vào đó gán chỉ số cột mặc định.
* `names`: Cho phép chỉ định danh sách tên cột tùy chỉnh.
* Sử dụng khi tệp CSV không có tiêu đề hoặc tiêu đề không phù hợp.

##**1.4. Gán chỉ số**
###Xác định vị trí và truy cập nhanh

* Chỉ số (`index`) giống như "nhãn" hoặc "số thứ tự" để xác định từng hàng trong bảng dữ liệu.

* Khi có index rõ ràng, ta có thể dễ dàng lấy ra một hàng hoặc một tập con dữ liệu mà không cần duyệt toàn bộ bảng.
* Ví dụ: trong pandas, nếu bạn có một `DataFrame` với index là ngày tháng, bạn có thể nhanh chóng lấy dữ liệu theo ngày "2024-08-31" thay vì phải lọc theo cột.

###Dễ dàng sắp xếp và lọc

* Index cho phép bạn sắp xếp dữ liệu theo thứ tự cụ thể (thời gian, ID, tên, …).

* Ngoài ra, nhiều thao tác lọc hoặc slice dữ liệu (ví dụ: lấy từ dòng số 10 đến số 20, hoặc lấy từ ngày A đến ngày B) sẽ thuận tiện hơn nếu có index.

###Tăng hiệu quả khi kết hợp dữ liệu

* Khi làm việc với nhiều bảng (join/merge), index đóng vai trò như một khóa (key) để ghép dữ liệu.

* Ví dụ: bảng sinh viên có index là student_id và bảng điểm cũng có student_id, ta có thể merge hai bảng dễ dàng.

### Giúp dữ liệu có ý nghĩa và trực quan hơn

* Nếu không có index, dữ liệu chỉ đơn thuần là các dòng số thứ tự 0,1,2,...

* Khi gán index phù hợp (ví dụ: mã khách hàng, tên sản phẩm, ngày tháng), dữ liệu trở nên dễ đọc và dễ hiểu hơn.


In [None]:
import pandas as pd
names = ["So luong", "Don gia", "Thanh tien", "Ten san pham", "ID"]

path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex2.csv"
df_indexed = pd.read_csv(path, names=names, index_col="ID") # Đánh index cho cột ID
print(df_indexed)

    So luong  Don gia  Thanh tien           Ten san pham
ID                                                      
1          1     2000        2000                But chi
2          5     6000       30000             Vo ghi chu
3          9    10000       90000        Hop but chi mau
4          5     6000       30000  Hop but bi Thien Long
5          4     5000       20000          But viet bang
6          8     8000       64000           Note sticker
1         10     2000       20000                But chi


**Giải thích:**

* `index_col="ID"`: Chỉ định cột `ID` làm chỉ số, thay vì chỉ số mặc định.
* Chỉ số này giúp truy cập hàng dễ dàng hơn dựa trên giá trị của `ID`.

##**1.5. Phân Tách Không Phải Dấu Phẩy**

Không phải tệp văn bản nào cũng sử dụng dấu phẩy làm phân tách. Có thể chỉ định phân tách bằng tham số `sep`, hỗ trợ cả biểu thức chính quy (regular expression).

**Ví dụ:** Tệp [ex3.txt](https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex3.txt) phân tách bằng khoảng trắng:

A B C D

aaa -0.264438 -1.026059 -0.619500

bbb  0.927272  0.302904 -0.032399

ccc -0.264273 -0.386314 -0.217601

ddd -0.871858 -0.348382  1.100491

In [None]:
#Code
import pandas as pd
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex3.txt"
result = pd.read_csv(path,index_col=["A"], sep=r"\s+")
print(result)

            B         C         D
A                                
aaa -0.264438 -1.026059 -0.619500
bbb  0.927272  0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382  1.100491


**Giải thích:**

* `sep=r"\s+"`: Sử dụng [biểu thức chính quy](https://viblo.asia/p/python-regex-Qbq5QMeE5D8) để khớp với một hoặc nhiều khoảng trắng.
* `Pandas` nhận diện cột "A" làm chỉ số.

##**1.6. Bỏ Qua Dòng Không Cần Thiết**

Tệp văn bản đôi khi chứa các dòng chú thích hoặc dữ liệu không cần thiết.
Sử dụng `skiprows` để bỏ qua các dòng này.

**Ví dụ:** Tệp [ex4.csv](https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex4.csv)

hey!

a,b,c,d,message

just wanted to make things more difficult for you

who reads CSV files with computers, anyway?

1,2,3,4,hello

5,6,7,8,world

9,10,11,12,foo


In [None]:
import pandas as pd
#Khi chưa skip row
path="https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex4.csv"
df = pd.read_csv(path) # Đọc file và không đọc các file tại row 0, 2, 3
print(df)
#Sau khi skip row 0, 2, 3
print("\n")
print("=================Sau khi skip row [0, 2, 3] ================")
path="https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex4.csv"
df_skip = pd.read_csv(path, skiprows=[0, 2, 3]) # Đọc file và không đọc các file tại row 0, 2, 3
print(df_skip)

                                                                                            Hey!
Diem 1                                            Diem 2   Diem 3 Diem 4                Nhan xet
just wanted to make things more difficult for you NaN      NaN    NaN                        NaN
who reads CSV files with computers                 anyway? NaN    NaN                        NaN
1                                                 2        3      4                  Hoc luc yeu
5                                                 6        7      8       Hoc luc trung binh kha
9                                                 10       9      10            Hoc luc xuat sac
5                                                 6        5      6                   Trung binh
4                                                 6        5      6                   Trung Binh
8                                                 9        8      9                         Gioi
2                             

**Giải thích:**
* `skiprows=[0, 2, 3]`: Bỏ qua các dòng 0, 2, và 3.
* Pandas chỉ đọc các dòng chứa dữ liệu thực tế, giữ nguyên tiêu đề.

##**1.7. Xử Lý Giá Trị Thiếu (Missing Values)**

* Trong thực tế, khi thu thập và lưu trữ dữ liệu, không phải lúc nào mọi giá trị cũng được ghi nhận đầy đủ.
* Một số ô có thể bị trống hoặc mang các ký hiệu đặc biệt như NA, NaN, NULL, hoặc chuỗi rỗng "". Đây chính là dữ liệu thiếu (missing data).

### Nguyên nhân dữ liệu bị thiếu

* Lỗi nhập liệu hoặc hệ thống: người nhập bỏ sót, lỗi phần mềm, cảm biến không ghi nhận.

* Người tham gia không cung cấp thông tin: ví dụ từ chối khai báo thu nhập, tuổi.

* Không áp dụng được: một số câu hỏi khảo sát không liên quan đến đối tượng.

* Mất mát trong quá trình xử lý: dữ liệu bị lỗi khi truyền tải, chuyển đổi định dạng.

### Tác động của dữ liệu thiếu

* Giảm chất lượng phân tích: kết quả thống kê, mô hình dự báo có thể sai lệch.

* Mất thông tin quan trọng: loại bỏ dữ liệu thiếu có thể khiến tập dữ liệu nhỏ đi, mất tính đại diện.

* Khó áp dụng thuật toán: nhiều thuật toán học máy không chấp nhận giá trị NaN.

### Các dạng thiếu dữ liệu

* MCAR (Missing Completely At Random): Thiếu hoàn toàn ngẫu nhiên.

* MAR (Missing At Random): Xác suất thiếu phụ thuộc các biến khác.

* MNAR (Missing Not At Random): Thiếu có liên quan trực tiếp đến chính biến bị thiếu.

### Chiến lược xử lý

* Loại bỏ: bỏ hàng/cột chứa dữ liệu thiếu (dùng khi tỉ lệ thiếu nhỏ).

* Điền giá trị thay thế (imputation): Điền bằng mean/median/mode, điền theo nhóm (ví dụ theo giới tính, khu vực), forward fill / Backward fill (trong chuỗi thời gian), nội suy (interpolation).

* Phương pháp nâng cao: KNN imputation, MICE, mô hình dự đoán để ước lượng giá trị bị thiếu.

* Kết hợp nhiều mô hình.


**Ví dụ:** Tệp [ex5.csv](https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex5.csv):

![ex5.csv](https://github.com/tranhungemail/DSImageCourse/blob/main/MissingValueCSV1.png?raw=true)

In [None]:
#Code dữ liệu thiếu được hiển thị dưới dạng NaN
import pandas as pd
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex5.csv"
df = pd.read_csv(path, encoding='latin-1')
print(df)

  Ho va ten  Diem_Toan  Diem_Van  Diem_Anh  Diem_Ly            Ghi_chu
0        An         88      85.0      65.0     96.0                NaN
1      Bình         92      57.0      98.0     52.0  Ko co gi dac biet
2       Chi         51      73.0       NaN     87.0                NaN
3      D?ng         91      90.0      56.0     95.0                NaN
4        Hà         67      99.0      86.0     76.0                NaN
5      H?nh         76       NaN      72.0     90.0                NaN
6     Khánh         58      69.0      60.0     88.0                NaN
7       Lan         90      93.0      75.0      NaN                NaN
8      Minh         95      72.0      91.0     67.0                NaN
9      Ng?c         97      80.0      78.0     94.0                NaN


### Thống kê dữ liệu thiếu
* Xác định mức độ thiếu hụt: Biết bao nhiêu giá trị bị thiếu và có ảnh hưởng nghiêm trọng không.

* Hiểu phân bố dữ liệu thiếu: Phát hiện cột hoặc hàng nào bị thiếu nhiều nhất, có theo mẫu hay ngẫu nhiên.

* Hỗ trợ chọn phương pháp xử lý: Quyết định dùng thay thế (mean/median), gắn cờ (flag), hay loại bỏ.

* Đảm bảo tính toàn vẹn của mô hình: Tránh lỗi hoặc sai lệch khi huấn luyện mô hình học máy.

* Báo cáo và minh bạch dữ liệu: Cung cấp thông tin rõ ràng về tình trạng dữ liệu cho nhóm hoặc khách hàng.

In [None]:
# Thống kê thiếu dữ liệu theo cột: số lượng & tỉ lệ %
import pandas as pd
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex5.csv"
missing_counts = df.isna().sum()
missing_pct = (df.isna().mean() * 100).round(1)
summary = pd.DataFrame({"Số lượng": missing_counts, "Tỉ lệ %": missing_pct})
print("Thống kê các dữ liệu thiếu theo cột:\n", summary, "\n")

Thống kê các dữ liệu thiếu theo cột:
            Số lượng  Tỉ lệ %
Ho va ten         0      0.0
Diem_Toan         0      0.0
Diem_Van          0      0.0
Diem_Anh          1     33.3
Diem_Ly           0      0.0
Ghi_chu           2     66.7 



### Loại bỏ các hàng có dữ liệu thiếu
   Loại bỏ các hàng có bất kì giá trị NaN nào

In [None]:
import pandas as pd
# Dữ liệu chưa loại bỏ NaN
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex5.csv"
df = pd.read_csv(path, encoding='latin-1')
print("Dữ liệu chưa loại bỏ NaN:\n", df, "\n")
print("\n============================\n")
# Dữ liệu đã loại bỏ NaN
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex5.csv"
drop_any = df.dropna(how="any")
print("Loại hàng có bất kỳ NaN:\n", drop_any, "\n")

Dữ liệu chưa loại bỏ NaN:
   Ho va ten  Diem_Toan  Diem_Van  Diem_Anh  Diem_Ly            Ghi_chu
0        An         88      85.0      65.0     96.0                NaN
1      Bình         92      57.0      98.0     52.0  Ko co gi dac biet
2       Chi         51      73.0       NaN     87.0                NaN
3      Dung         91      90.0      56.0     95.0                NaN
4        Ha         67      99.0      86.0     76.0                NaN
5      Hanh         76       NaN      72.0     90.0                NaN
6     Khanh         58      69.0      60.0     88.0                NaN
7       Lan         90      93.0      75.0      NaN                NaN
8      Minh         95      72.0      91.0     67.0                NaN
9      Ngoc         97      80.0      78.0     94.0                NaN 



Loại hàng có bất kỳ NaN:
   Ho va ten  Diem_Toan  Diem_Van  Diem_Anh  Diem_Ly            Ghi_chu
1      Bình         92      57.0      98.0     52.0  Ko co gi dac biet 



### Giữ lại các hàng có ít nhất 5 giá trị không thiếu (thresh=5)

In [None]:
import pandas as pd
# Dữ liệu chưa loại bỏ NaN
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex5.csv"
df = pd.read_csv(path, encoding='latin-1')
print("Dữ liệu chưa loại bỏ NaN:\n", df, "\n")
print("\n============================\n")

drop_thresh5 = df.dropna(thresh=5)
print("Giữ hàng có ≥5 giá trị không thiếu:\n", drop_thresh5, "\n")

Dữ liệu chưa loại bỏ NaN:
   Ho va ten  Diem_Toan  Diem_Van  Diem_Anh  Diem_Ly            Ghi_chu
0        An         88      85.0      65.0     96.0                NaN
1      Bình         92      57.0      98.0     52.0  Ko co gi dac biet
2       Chi         51      73.0       NaN     87.0                NaN
3      Dung         91      90.0      56.0     95.0                NaN
4        Ha         67      99.0      86.0     76.0                NaN
5      Hanh         76       NaN      72.0     90.0                NaN
6     Khanh         58      69.0      60.0     88.0                NaN
7       Lan         90      93.0      75.0      NaN                NaN
8      Minh         95      72.0      91.0     67.0                NaN
9      Ngoc         97      80.0      78.0     94.0                NaN 



Giữ hàng có ≥5 giá trị không thiếu:
   Ho va ten  Diem_Toan  Diem_Van  Diem_Anh  Diem_Ly            Ghi_chu
0        An         88      85.0      65.0     96.0                NaN
1      Bì

### Điền các ô dữ liệu bị thiếu bằng trung bình mỗi cột

In [None]:
import pandas as pd
# Dữ liệu chưa loại bỏ NaN
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex5.csv"
df = pd.read_csv(path, encoding='latin-1')
print("Dữ liệu gốc:\n", df, "\n")
print("\n============================\n")
print("Dữ liệu sau khi điền các giá trị thiếu bằng trung bình các cột")
df_mean = df.fillna(df.mean(numeric_only=True))
print(df_mean)


Dữ liệu gốc:
   Ho va ten  Diem_Toan  Diem_Van  Diem_Anh  Diem_Ly            Ghi_chu
0        An         88      85.0      65.0     96.0                NaN
1      Bình         92      57.0      98.0     52.0  Ko co gi dac biet
2       Chi         51      73.0       NaN     87.0                NaN
3      Dung         91      90.0      56.0     95.0                NaN
4        Ha         67      99.0      86.0     76.0                NaN
5      Hanh         76       NaN      72.0     90.0                NaN
6     Khanh         58      69.0      60.0     88.0                NaN
7       Lan         90      93.0      75.0      NaN                NaN
8      Minh         95      72.0      91.0     67.0                NaN
9      Ngoc         97      80.0      78.0     94.0                NaN 



Dữ liệu sau khi điền các giá trị thiếu bằng trung bình các cột
  Ho va ten  Diem_Toan   Diem_Van   Diem_Anh    Diem_Ly            Ghi_chu
0        An         88  85.000000  65.000000  96.000000        

### Điền dữ liệu thiếu bằng forward fill

In [None]:
import pandas as pd
# Dữ liệu chưa loại bỏ NaN
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex5.csv"
df = pd.read_csv(path, encoding='latin-1')
print("Dữ liệu gốc:\n", df, "\n")
print("\n============================\n")
print("Điền thiếu bằng forward fill")
df_ffill = df.fillna(method="ffill")
print(df_ffill)

Dữ liệu gốc:
   Ho va ten  Diem_Toan  Diem_Van  Diem_Anh  Diem_Ly            Ghi_chu
0        An         88      85.0      65.0     96.0                NaN
1      Bình         92      57.0      98.0     52.0  Ko co gi dac biet
2       Chi         51      73.0       NaN     87.0                NaN
3      Dung         91      90.0      56.0     95.0                NaN
4        Ha         67      99.0      86.0     76.0                NaN
5      Hanh         76       NaN      72.0     90.0                NaN
6     Khanh         58      69.0      60.0     88.0                NaN
7       Lan         90      93.0      75.0      NaN                NaN
8      Minh         95      72.0      91.0     67.0                NaN
9      Ngoc         97      80.0      78.0     94.0                NaN 



Điền thiếu bằng forward fill
  Ho va ten  Diem_Toan  Diem_Van  Diem_Anh  Diem_Ly            Ghi_chu
0        An         88      85.0      65.0     96.0                NaN
1      Bình         92      57

  df_ffill = df.fillna(method="ffill")


###Điền dữ liệu thiếu bằng backward fill

In [None]:
import pandas as pd
# Dữ liệu chưa loại bỏ NaN
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex5.csv"
df = pd.read_csv(path, encoding='latin-1')
print("Dữ liệu gốc:\n", df, "\n")
print("\n============================\n")
print("Điền thiếu bằng backward fill")
df_bfill = df.fillna(method="bfill")
print(df_bfill)


Dữ liệu gốc:
   Ho va ten  Diem_Toan  Diem_Van  Diem_Anh  Diem_Ly            Ghi_chu
0        An         88      85.0      65.0     96.0                NaN
1      Bình         92      57.0      98.0     52.0  Ko co gi dac biet
2       Chi         51      73.0       NaN     87.0                NaN
3      Dung         91      90.0      56.0     95.0                NaN
4        Ha         67      99.0      86.0     76.0                NaN
5      Hanh         76       NaN      72.0     90.0                NaN
6     Khanh         58      69.0      60.0     88.0                NaN
7       Lan         90      93.0      75.0      NaN                NaN
8      Minh         95      72.0      91.0     67.0                NaN
9      Ngoc         97      80.0      78.0     94.0                NaN 



Điền thiếu bằng backward fill
  Ho va ten  Diem_Toan  Diem_Van  Diem_Anh  Diem_Ly            Ghi_chu
0        An         88      85.0      65.0     96.0  Ko co gi dac biet
1      Bình         92      5

  df_bfill = df.fillna(method="bfill")


#**2. Đọc Dữ Liệu Từ JSON**

* JSON là một định dạng dữ liệu dựa trên văn bản và có thể được sử dụng với hầu hết các ngôn ngữ lập trình (Python, Java, C#, PHP, v.v.).

* JSON được sử dụng để biểu diễn dữ liệu có cấu trúc, thường ở dạng cặp key-value (khóa-giá trị) hoặc danh sách các giá trị.
* Ví dụ đơn giản về JSON:


```
{
  "name": "Nguyen Van A",
  "age": 25,
  "isStudent": true,
  "hobbies": ["reading", "coding", "traveling"],
  "address": {
    "street": "123 Le Loi",
    "city": "Hanoi"
  }
}
```

* `"name", "age", "isStudent", "hobbies", "address"` là các **key**.
* `"Nguyen Van A", 25, true, ["reading", "coding", "traveling"]`, và đối tượng `{ "street": "123 Le Loi", "city": "Hanoi" }` là các **value**.



##**2.1. Cấu trúc của JSON**

JSON có hai cấu trúc chính: Object (đối tượng), Array (mảng).

**2.1.1. Object (Đối tượng):**

* Là tập hợp các cặp key-value được bao quanh bởi dấu {}.
* Key là một chuỗi (string) được bao quanh bởi dấu nháy kép ("").

* Value có thể là:

  * Chuỗi (string): "Hello"
  * Số (number): 42 hoặc 3.14
  * Boolean: true hoặc false
  * Mảng (array): ["item1", "item2"]
  * Đối tượng (object): { "key": "value" }
  * Giá trị null: null

* Các cặp key-value được phân tách bởi dấu phẩy (,).

**2.1.2. Array (Mảng):**

* Là danh sách các giá trị được bao quanh bởi dấu [].

* Các giá trị trong mảng có thể thuộc bất kỳ kiểu dữ liệu nào được JSON hỗ trợ `(string, number, object, array, boolean, null)`.
* Các giá trị được phân tách bởi dấu phẩy.

##2.2. Đọc dữ liệu từ tệp JSON
Dữ liệu từ tệp JSON được lưu tại có tên [student.json](https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/student.json)


In [None]:
[
  {"ten": "An",   "diem_toan": 85, "diem_van": 78, "diem_anh": 90, "diem_ly": 65},
  {"ten": "Binh", "diem_toan": 70, "diem_van": 88, "diem_anh": "null", "diem_ly": 74},
  {"ten": "Chi",  "diem_toan": 92, "diem_van": "null", "diem_anh": 80, "diem_ly": 100},
  {"ten": "Dung", "diem_toan": 60, "diem_van": 72, "diem_anh": 85, "diem_ly": 90},
  {"ten": "Ha",   "diem_toan": 75, "diem_van": 95, "diem_anh": 78, "diem_ly": 82},
  {"ten": "Hanh", "diem_toan": 88, "diem_van": 91, "diem_anh": 92, "diem_ly": "null"},
  {"ten": "Khanh","diem_toan": 55, "diem_van": 67, "diem_anh": 70, "diem_ly": 73},
  {"ten": "Lan",  "diem_toan": 95, "diem_van": "null", "diem_anh": 88, "diem_ly": 97},
  {"ten": "Minh", "diem_toan": 81, "diem_van": 76, "diem_anh": 84, "diem_ly": "null"},
  {"ten": "Ngoc", "diem_toan": 100, "diem_van": 89, "diem_anh": 95, "diem_ly": 98}
]

import pandas as pd
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/student.json"
df_json = pd.read_json(path)
print(df_json)


     ten  diem_toan  diem_van  diem_anh  diem_ly
0     An         85      78.0      90.0     65.0
1   Binh         70      88.0       NaN     74.0
2    Chi         92       NaN      80.0    100.0
3   Dung         60      72.0      85.0     90.0
4     Ha         75      95.0      78.0     82.0
5   Hanh         88      91.0      92.0      NaN
6  Khanh         55      67.0      70.0     73.0
7    Lan         95       NaN      88.0     97.0
8   Minh         81      76.0      84.0      NaN
9   Ngoc        100      89.0      95.0     98.0


**Giải thích:**

* `read_json` tự động ánh xạ các khóa `JSON` thành cột của `DataFrame`.

* `JSON` phải có cấu trúc phù hợp (danh sách các đối tượng với các khóa nhất quán).


###Xóa các hàng bị thiếu dữ liệu

In [None]:
import pandas as pd
# Dữ liệu chưa loại bỏ NaN
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/student.json"
df_json = pd.read_json(path)
print("Dữ liệu gốc:\n", df_json, "\n")

df_drop = df_json.dropna()
print("Loai bo hang co NaN:\n", df_drop)

Dữ liệu gốc:
      ten  diem_toan  diem_van  diem_anh  diem_ly
0     An         85      78.0      90.0     65.0
1   Binh         70      88.0       NaN     74.0
2    Chi         92       NaN      80.0    100.0
3   Dung         60      72.0      85.0     90.0
4     Ha         75      95.0      78.0     82.0
5   Hanh         88      91.0      92.0      NaN
6  Khanh         55      67.0      70.0     73.0
7    Lan         95       NaN      88.0     97.0
8   Minh         81      76.0      84.0      NaN
9   Ngoc        100      89.0      95.0     98.0 

Loai bo hang co NaN:
      ten  diem_toan  diem_van  diem_anh  diem_ly
0     An         85      78.0      90.0     65.0
3   Dung         60      72.0      85.0     90.0
4     Ha         75      95.0      78.0     82.0
6  Khanh         55      67.0      70.0     73.0
9   Ngoc        100      89.0      95.0     98.0


###Điền dữ liệu thiếu bằng forward fill

In [None]:
import pandas as pd
# Dữ liệu chưa loại bỏ NaN
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/student.json"
df_json = pd.read_json(path)
print("Dữ liệu gốc:\n", df_json, "\n")

print("\n============================\n")
print("Điền dữ liệu thiếu bằng forward fill")
df_ffill = df_json.fillna(method="ffill")
print(df_ffill)

Dữ liệu gốc:
      ten  diem_toan  diem_van  diem_anh  diem_ly
0     An         85      78.0      90.0     65.0
1   Binh         70      88.0       NaN     74.0
2    Chi         92       NaN      80.0    100.0
3   Dung         60      72.0      85.0     90.0
4     Ha         75      95.0      78.0     82.0
5   Hanh         88      91.0      92.0      NaN
6  Khanh         55      67.0      70.0     73.0
7    Lan         95       NaN      88.0     97.0
8   Minh         81      76.0      84.0      NaN
9   Ngoc        100      89.0      95.0     98.0 



Điền dữ liệu thiếu bằng forward fill
     ten  diem_toan  diem_van  diem_anh  diem_ly
0     An         85      78.0      90.0     65.0
1   Binh         70      88.0      90.0     74.0
2    Chi         92      88.0      80.0    100.0
3   Dung         60      72.0      85.0     90.0
4     Ha         75      95.0      78.0     82.0
5   Hanh         88      91.0      92.0     82.0
6  Khanh         55      67.0      70.0     73.0
7    Lan      

  df_ffill = df_json.fillna(method="ffill")


### Điền dữ liệu thiếu bằng backward fill

In [None]:
import pandas as pd
# Dữ liệu chưa loại bỏ NaN
path = "https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/student.json"
df_json = pd.read_json(path)
print("Dữ liệu gốc:\n", df_json, "\n")
print("\n============================\n")
print("Điền thiếu bằng backward fill")
df_bfill = df_json.fillna(method="bfill")
print(df_bfill)

Dữ liệu gốc:
      ten  diem_toan  diem_van  diem_anh  diem_ly
0     An         85      78.0      90.0     65.0
1   Binh         70      88.0       NaN     74.0
2    Chi         92       NaN      80.0    100.0
3   Dung         60      72.0      85.0     90.0
4     Ha         75      95.0      78.0     82.0
5   Hanh         88      91.0      92.0      NaN
6  Khanh         55      67.0      70.0     73.0
7    Lan         95       NaN      88.0     97.0
8   Minh         81      76.0      84.0      NaN
9   Ngoc        100      89.0      95.0     98.0 



Điền thiếu bằng backward fill
     ten  diem_toan  diem_van  diem_anh  diem_ly
0     An         85      78.0      90.0     65.0
1   Binh         70      88.0      80.0     74.0
2    Chi         92      72.0      80.0    100.0
3   Dung         60      72.0      85.0     90.0
4     Ha         75      95.0      78.0     82.0
5   Hanh         88      91.0      92.0     73.0
6  Khanh         55      67.0      70.0     73.0
7    Lan         95  

  df_bfill = df_json.fillna(method="bfill")


#**3. Đọc dữ liệu từ web**
* Thư viện pandas hỗ trợ đọc dữ liệu dạng bảng trực tiếp từ nhiều nguồn: file CSV, Excel, SQL, và thậm chí cả trang web (HTML table).
* Hàm pd.read_html(url) sẽ tự động tìm kiếm tất cả các bảng `<table>` trong trang web và đưa chúng về dưới dạng DataFrame.

In [None]:
import pandas as pd

# URL chứa bảng HTML cần lấy
url = "https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/"

# Tìm và đọc tất cả các bảng trong trang web
tables = pd.read_html(url)

# Kiểm tra có bao nhiêu bảng được tìm thấy
print(f"Số bảng tìm thấy: {len(tables)}")

# Chọn bảng đầu tiên (thường là bảng dữ liệu chính)
failures = tables[0]

# Xem 5 dòng đầu tiên
print(failures.head())


Số bảng tìm thấy: 1
                               Bank Name          City         State   Cert  \
0           The Santa Anna National Bank    Santa Anna         Texas   5520   
1                   Pulaski Savings Bank       Chicago      Illinois  28611   
2     The First National Bank of Lindsay       Lindsay      Oklahoma   4134   
3  Republic First Bank dba Republic Bank  Philadelphia  Pennsylvania  27332   
4                          Citizens Bank      Sac City          Iowa   8758   

               Acquiring Institution      Closing Date  Fund  Sort ascending  
0          Coleman County State Bank     June 27, 2025                 10549  
1                    Millennium Bank  January 17, 2025                 10548  
2             First Bank & Trust Co.  October 18, 2024                 10547  
3  Fulton Bank, National Association    April 26, 2024                 10546  
4          Iowa Trust & Savings Bank  November 3, 2023                 10545  


##3.1. Kiểm tra dữ liệu thiếu

In [None]:
import pandas as pd

# URL chứa bảng HTML cần lấy
url = "https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/"

# Tìm và đọc tất cả các bảng trong trang web
tables = pd.read_html(url)

# Kiểm tra có bao nhiêu bảng được tìm thấy
print(f"Số bảng tìm thấy: {len(tables)}")

# Chọn bảng đầu tiên (thường là bảng dữ liệu chính)
failures = tables[0]

print(failures.isnull().sum())

Số bảng tìm thấy: 1
Bank Name                0
City                     0
State                    0
Cert                     0
Acquiring Institution    0
Closing Date             0
Fund  Sort ascending     0
dtype: int64


##3.2. Lưu dữ liệu ra file CSV để phân tích sau

In [None]:
import pandas as pd

# URL chứa bảng HTML cần lấy
url = "https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/"

# Tìm và đọc tất cả các bảng trong trang web
tables = pd.read_html(url)

# Kiểm tra có bao nhiêu bảng được tìm thấy
print(f"Số bảng tìm thấy: {len(tables)}")

# Chọn bảng đầu tiên (thường là bảng dữ liệu chính)
failures = tables[0]

failures.to_csv("bank_failures.csv", index=False, encoding="utf-8")
print("Lưu thành công ra file CSV")

Số bảng tìm thấy: 1
Lưu thành công ra file CSV


## 3.3. Đếm số ngân hàng phá sản theo năm:

In [None]:
import pandas as pd

# URL chứa bảng HTML cần lấy
url = "https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/"

# Tìm và đọc tất cả các bảng trong trang web
tables = pd.read_html(url)

# Kiểm tra có bao nhiêu bảng được tìm thấy
print(f"Số bảng tìm thấy: {len(tables)}")

# Chọn bảng đầu tiên (thường là bảng dữ liệu chính)
failures = tables[0]

failures["Closing Date"] = pd.to_datetime(failures["Closing Date"])
failures["Year"] = failures["Closing Date"].dt.year
print(failures["Year"].value_counts().sort_index())

Số bảng tìm thấy: 1
Year
2017    8
2019    4
2020    4
2023    5
2024    2
2025    2
Name: count, dtype: int64


#**4. Đọc Dữ Liệu Từ XML (RSS Feed)**

**XML (Extensible Markup Language):** Là một ngôn ngữ đánh dấu dùng để lưu trữ và truyền tải dữ liệu theo cấu trúc cây, sử dụng các thẻ (tag) tùy chỉnh để mô tả dữ liệu.


##**4.1. XML và RSS Feed là gì?**


**Ví dụ:**
```
<item>
    <title>Tin tức mới nhất</title>
    <description>Nội dung tóm tắt...</description>
    <link>https://example.com/news</link>
</item>
```
**RSS Feed (Really Simple Syndication):**

* Là một dạng tệp XML được sử dụng để cung cấp nội dung cập nhật tự động từ các trang web (như blog, tin tức, podcast).

* RSS Feed thường có cấu trúc chuẩn với các thẻ như `<channel>, <item>, <title>, <link>, <description>`, v.v.

* Một RSS Feed điển hình có dạng như sau:
```
<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
    <channel>
        <title>Tên trang web</title>
        <link>https://example.com</link>
        <description>Mô tả trang web</description>
        <item>
            <title>Tiêu đề bài viết 1</title>
            <link>https://example.com/post1</link>
            <description>Tóm tắt bài viết 1</description>
            <pubDate>Mon, 24 Aug 2025 11:00:00 GMT</pubDate>
        </item>
        <item>
            <title>Tiêu đề bài viết 2</title>
            <link>https://example.com/post2</link>
            <description>Tóm tắt bài viết 2</description>
            <pubDate>Mon, 24 Aug 2025 10:00:00 GMT</pubDate>
        </item>
    </channel>
</rss>
```

* `XML` thường được sử dụng trong các nguồn cấp `RSS`.
* Sử dụng `BeautifulSoup` để phân tích `XML` và chuyển thành `DataFrame`.



##**4.2. Ví dụ: Đọc RSS từ CafeF về thị trường chứng khoán**
* BeautifulSoup phân tích XML, trích xuất các thẻ <item> và các trường như title, link.

In [None]:
# Import các thư viện cần thiết
import requests                      # Thư viện dùng để gửi HTTP request (GET, POST, …)
from bs4 import BeautifulSoup        # Thư viện phân tích cú pháp HTML/XML

import pandas as pd                  # Thư viện xử lý dữ liệu dạng bảng

# Đường dẫn đến RSS feed (nguồn tin thị trường chứng khoán trên CafeF)
url = "https://cafef.vn/thi-truong-chung-khoan.rss"

# Gửi HTTP GET request đến URL để lấy nội dung RSS
res = requests.get(url)

# Parse (phân tích cú pháp) nội dung RSS theo định dạng XML
# res.content là dữ liệu dạng bytes trả về từ server
soup = BeautifulSoup(res.content, 'xml')

# Khởi tạo danh sách rỗng để lưu dữ liệu các bản tin
data = []

# Duyệt qua tất cả các thẻ <item> trong RSS (mỗi item là 1 bản tin)
for item in soup.find_all('item'):
    # Với mỗi bản tin, trích xuất ra 4 trường cơ bản:
    # - title: tiêu đề bài viết
    # - link: đường dẫn đến bài viết gốc
    # - pubDate: ngày giờ xuất bản
    # - description: mô tả ngắn gọn nội dung bài viết
    data.append({
        'title': item.find('title').text,               # Lấy text bên trong thẻ <title>
        'link': item.find('link').text,                 # Lấy text bên trong thẻ <link>
        'pubDate': item.find('pubDate').text,           # Lấy text bên trong thẻ <pubDate>
        'description': item.find('description').text    # Lấy text bên trong thẻ <description>
    })

# Chuyển danh sách dict thành DataFrame của pandas để dễ xử lý và phân tích
df_rss = pd.DataFrame(data)

# In ra 5 dòng đầu tiên để kiểm tra
print(df_rss.head())


                                               title  \
0  Một doanh nghiệp bị xử phạt do 'ém' thông tin ...   
1  Chứng khoán liên tục tăng, vì sao nhiều nhà đầ...   
2  Cổ đông lo lắng, lãnh đạo doanh nghiệp đua nha...   
3  Phó Tổng giám đốc VietCredit bị phạt vì mua cổ...   
4        Sắp diễn ra nhiều thương vụ lớn về cổ phiếu   

                                                link  \
0  https://cafef.vn/mot-doanh-nghiep-bi-xu-phat-d...   
1  https://cafef.vn/chung-khoan-lien-tuc-tang-vi-...   
2  https://cafef.vn/co-dong-lo-lang-lanh-dao-doan...   
3  https://cafef.vn/pho-tong-giam-doc-vietcredit-...   
4  https://cafef.vn/sap-dien-ra-nhieu-thuong-vu-l...   

                         pubDate  \
0  Mon, 01 Sep 25 20:59:00 +0700   
1  Mon, 01 Sep 25 12:52:00 +0700   
2  Mon, 01 Sep 25 09:30:00 +0700   
3  Mon, 01 Sep 25 00:11:00 +0700   
4  Mon, 01 Sep 25 00:10:00 +0700   

                                         description  
0  <a href="https://cafef.vn/mot-doanh-nghiep-bi-...  

##**4.3. Lọc thông tin về Vietnam Airlines:**
* `str.contains` lọc các hàng có chứa "vietnam airlines" (không phân biệt hoa thường).
* RSS là nguồn dữ liệu động, phù hợp để theo dõi tin tức thời sự.

In [None]:
#Lọc thông tin về Vietnam Airlines:
df_hvn = df_rss[df_rss['title'].str.contains('vietnam airlines', case=False, na=False)]
print(df_hvn)

                                                 title  \
423  Vietnam Airlines bắt đầu kinh doanh Internet t...   
486  Một doanh nghiệp có doanh thu vượt xa Vingroup...   

                                                  link  \
423  https://cafef.vn/vietnam-airlines-bat-dau-kinh...   
486  https://cafef.vn/mot-doanh-nghiep-co-doanh-thu...   

                           pubDate  \
423  Wed, 06 Aug 25 15:14:00 +0700   
486  Sun, 03 Aug 25 01:48:00 +0700   

                                           description  
423  <a href="https://cafef.vn/vietnam-airlines-bat...  
486  <a href="https://cafef.vn/mot-doanh-nghiep-co-...  


#**5. Đọc và Ghi Dữ Liệu Từ Microsoft Excel**

* Pandas hỗ trợ đọc/ghi tệp Excel (XLS/XLSX) qua openpyxl (cho XLSX) và xlrd (cho XLS).
* Cần cài đặt: `pip install openpyxl xlrd`.

##5.1. Ví dụ 11: Đọc tệp Excel

In [None]:
import pandas as pd                  # Thư viện xử lý dữ liệu dạng bảng
xlsx = pd.ExcelFile("https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex6.xlsx")
df_excel_sheet2 = xlsx.parse(sheet_name="Sheet2")
print("================Sheet 2=======================")
print(df_excel_sheet2)
print("================Sheet 1===================")
df_excel_sheet1 = xlsx.parse(sheet_name="Sheet1")
print(df_excel_sheet1)

    Datetime  AAPL  MSFT  GOOGL  AMZN
0 2023-01-01   130   240     90   100
1 2023-01-02   132   242     91   102
2 2023-01-03   131   241     92   101
3 2023-01-04   133   243     91   103
4 2023-01-05   135   245     93   104
5 2023-01-06   137   246     94   105
6 2023-01-07   138   248     96   106
7 2023-01-08   140   249     95   107
8 2023-01-09   139   247     97   108
9 2023-01-10   141   250     98   109
  Ho va ten  Diem_Toan  Diem_Van  Diem_Anh  Diem_Ly            Ghi_chu
0        An         88      85.0      65.0     96.0                NaN
1      Bình         92      57.0      98.0     52.0  Ko co gi dac biet
2       Chi         51      73.0       NaN     87.0                NaN
3      Dung         91      90.0      56.0     95.0                NaN
4        Ha         67      99.0      86.0     76.0                NaN
5      Hanh         76       NaN      72.0     90.0                NaN
6     Khanh         58      69.0      60.0     88.0                NaN
7       Lan   

##5.2. Ghi dữ liệu ra Excel
**Quy trình**
* Import thư viện pandas.

* Chuẩn bị dữ liệu dưới dạng DataFrame (có thể đọc từ Excel, CSV, JSON, web, hoặc tạo trực tiếp).

* Tạo đối tượng ExcelWriter hoặc chỉ định tên file Excel cần ghi.

* Ghi dữ liệu từ DataFrame vào file Excel bằng .to_excel(), có thể chọn sheet_name, index, header, v.v.

* Đóng writer (hoặc dùng with pd.ExcelWriter(...) as writer: để tự động đóng).

**Kết quả:** Dữ liệu trong DataFrame sẽ được lưu vào file Excel mới hoặc ghi đè vào file có sẵn.



In [None]:
import pandas as pd                  # Thư viện xử lý dữ liệu dạng bảng
xlsx = pd.ExcelFile("https://raw.githubusercontent.com/tranhungemail/DSImageCourse/main/ex6.xlsx")
df_excel_sheet1 = xlsx.parse(sheet_name="Sheet1")
df_excel_sheet2 = xlsx.parse(sheet_name="Sheet2")

writer1 = pd.ExcelWriter("ex6_1.xlsx")
writer2 = pd.ExcelWriter("ex6_2.xlsx")

df_excel_sheet1.to_excel(writer1, sheet_name="Sheet1")
df_excel_sheet2.to_excel(writer2, sheet_name="Sheet2")

writer1.close()
writer2.close()

**Giải thích:**

* `pd.ExcelFile`: Tải toàn bộ tệp `Excel` để truy cập nhiều sheet.
* `parse`: Đọc sheet cụ thể thành `DataFrame`.
* `to_excel`: Ghi `DataFrame` ra tệp `Excel`, có thể chỉ định sheet.

#**6. Tương Tác Với API Web**

* API (Application Programming Interface - Giao diện lập trình ứng dụng) web là một giao diện cho phép các ứng dụng hoặc thiết bị khác nhau giao tiếp với nhau qua internet, thường sử dụng giao thức HTTP/HTTPS.
* Nó hoạt động như một cầu nối, cho phép gửi yêu cầu (request) và nhận phản hồi (response) dưới dạng dữ liệu (thường là JSON hoặc XML).
* API web cung cấp dữ liệu qua `JSON` hoặc `XML`. Thư viện `requests` là công cụ phổ biến để truy cập `API`.

##Quy trình chung


* Import thư viện requests.

* Xác định URL API cần truy cập (ví dụ: danh sách tỉnh thành Việt Nam).

* Gửi request đến API (thường là GET, ngoài ra có thể là POST, PUT, DELETE tuỳ mục đích).

* Kiểm tra phản hồi từ server qua status_code.

> * 200 → thành công.

> * Các mã khác (400, 404, 500...) báo lỗi.

* Xử lý dữ liệu phản hồi:

> * Nếu API trả về JSON → dùng .json() để chuyển thành đối tượng Python (list/dict).

> * Nếu API trả về text hoặc HTML → dùng .text.

* Sử dụng dữ liệu: in ra, lưu vào file, hoặc chuyển đổi thành DataFrame để phân tích.

* Xử lý lỗi (nếu có): thông báo lỗi, retry, hoặc xử lý ngoại lệ.

**Ví dụ:** Lấy danh sách tỉnh thành Việt Nam:

In [None]:
import requests

# URL API lấy danh sách tỉnh thành Việt Nam
url = "https://provinces.open-api.vn/api/?depth=1"

# Gửi request GET đến API
response = requests.get(url)

# Kiểm tra trạng thái phản hồi
if response.status_code == 200:
    data = response.json()  # Dữ liệu trả về dạng JSON
    print("Danh sách tỉnh thành Việt Nam:")
    for province in data:
        print(f"- {province['name']}")
else:
    print("Không thể lấy dữ liệu. Mã lỗi:", response.status_code)

**Giải thích:**

* requests.get(url): gửi yêu cầu HTTP GET đến API.

* response.json(): chuyển dữ liệu trả về từ JSON sang Python dictionary/list.

* province['name']: truy xuất tên tỉnh từ dữ liệu JSON.

* Nếu lỗi, in ra status_code (ví dụ: 404, 500).

#**7. Tương Tác Với Cơ Sở Dữ Liệu (SQL)**
`Pandas` hỗ trợ tương tác với cơ sở dữ liệu `SQL` thông qua hai phương pháp chính:

* Sử dụng `sqlite3`: Đây là mô-đun tích hợp sẵn trong Python, lý tưởng cho các cơ sở dữ liệu `SQLite` nhẹ và không cần cài đặt thêm. `SQLite` lưu trữ dữ liệu trong một tệp đơn (hoặc trong bộ nhớ), phù hợp cho các ứng dụng nhỏ hoặc thử nghiệm.
* Sử dụng `SQLAlchemy`: Thư viện này cung cấp một lớp trừu tượng hóa, cho phép làm việc với nhiều `DBMS` (`SQLite`, `MySQL`, `PostgreSQL`, v.v.) mà không cần thay đổi code nhiều. `SQLAlchemy` phù hợp cho các ứng dụng phức tạp hoặc khi làm việc với nhiều loại cơ sở dữ liệu.



##**7.1. Các Bước Tương Tác Với Cơ Sở Dữ Liệu**

Quy trình làm việc với cơ sở dữ liệu trong `Pandas` thường bao gồm:

* Kết nối đến cơ sở dữ liệu: Sử dụng `sqlite3.connect`.

* Tạo bảng: Xây dựng cấu trúc bảng với các cột và kiểu dữ liệu phù hợp.

* Chèn dữ liệu: Thêm dữ liệu vào bảng.

* Truy vấn dữ liệu: Thực hiện truy vấn SQL và chuyển kết quả vào `DataFrame`.

* Đóng kết nối: Đảm bảo tài nguyên được giải phóng sau khi sử dụng.

##**7.2. Ví Dụ Sử Dụng sqlite3**

Tạo một cơ sở dữ liệu `SQLite` có tên `mydata.sqlite` và một bảng `test` với các cột:

a: Chuỗi ký tự (VARCHAR(20)).

b: Chuỗi ký tự (VARCHAR(20)).

c: Số thực (REAL).

d: Số nguyên (INTEGER).

In [None]:
import sqlite3

# Kết nối đến cơ sở dữ liệu (tạo tệp mydata.sqlite nếu chưa tồn tại)
con = sqlite3.connect("mydata.sqlite")

# Tạo bảng test
query = """
CREATE TABLE test
(a VARCHAR(20),
 b VARCHAR(20),
 c REAL,
 d INTEGER
);
"""

try:
    con.execute(query)
    con.commit()
except sqlite3.OperationalError as e:
    print(f"Lỗi khi tạo bảng (có thể bảng đã tồn tại): {e}")

**Giải thích:**

* `sqlite3.connect("mydata.sqlite")`: Tạo hoặc kết nối đến tệp cơ sở dữ liệu SQLite. Nếu tệp chưa tồn tại, nó sẽ được tạo.

* Tạo bảng: Câu lệnh SQL `CREATE TABLE` định nghĩa bảng `test` với 4 cột và kiểu dữ liệu tương ứng.

* `con.execute(query)`: Thực thi câu lệnh SQL để tạo bảng.
`con.commit()`: Lưu thay đổi vào cơ sở dữ liệu.

* Xử lý lỗi: Nếu bảng đã tồn tại, `OperationalError` sẽ được bắt để tránh chương trình bị dừng.



##**7.3 Chèn Dữ Liệu**
Chèn một số hàng dữ liệu vào bảng `test`.

In [None]:
# Dữ liệu mẫu
data_sql = [
    ("Atlanta", "Georgia", 1.25, 6),
    ("Tallahassee", "Florida", 2.6, 3),
    ("Sacramento", "California", 1.7, 5)
]

# Câu lệnh INSERT
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"

try:
    con.executemany(stmt, data_sql)
    con.commit()
    print(f"Đã chèn xong")
except sqlite3.IntegrityError as e:
    print(f"Lỗi khi chèn dữ liệu (có thể dữ liệu đã tồn tại): {e}")

Đã chèn xong


**Giải thích:**

* `data_sql`: Danh sách các tuple, mỗi tuple tương ứng với một hàng dữ liệu cho bảng `test`.

* `executemany`: Chèn nhiều hàng cùng lúc, sử dụng dấu ? làm `placeholder`.

* `con.commit()`: Lưu dữ liệu vào cơ sở dữ liệu.

* Xử lý lỗi: Bắt lỗi `IntegrityError` để xử lý các vấn đề như trùng khóa chính hoặc vi phạm ràng buộc.

##**7.4. Truy Vấn Dữ Liệu**

Sử dụng `sqlite3` để truy vấn dữ liệu từ bảng `test` và chuyển vào `DataFrame`.

In [None]:
# Truy vấn tất cả dữ liệu từ bảng test
cursor = con.execute("SELECT * FROM test")
rows = cursor.fetchall()

# Chuyển kết quả thành DataFrame
df_sqlite = pd.DataFrame(rows, columns=[x[0] for x in cursor.description])
print(df_sqlite)

**Giải thích:**

* `con.execute("SELECT * FROM test")`: Thực thi truy vấn `SQL` để lấy tất cả dữ liệu từ bảng `test`.
* `cursor.fetchall()`: Trả về danh sách các `tuple`, mỗi `tuple` là một hàng dữ liệu.
* `cursor.description`: Chứa thông tin cột, ở đây lấy tên cột (a, b, c, d) để tạo `DataFrame`.
* Tạo `DataFrame`: Sử dụng danh sách `tuple` và tên cột để xây dựng `DataFrame`.

##**7.5. Đóng Kết Nối**

Đóng kết nối để giải phóng tài nguyên.

In [None]:
con.close()

**Giải thích:**
* `con.close()`: Đóng kết nối SQLite để tránh rò rỉ tài nguyên.
* Nếu cần xóa tệp cơ sở dữ liệu sau khi thử nghiệm:

In [None]:
import os
if os.path.exists("mydata.sqlite"):
    os.remove("mydata.sqlite")