In [15]:
import sqlite3
import pandas as pd
from datetime import datetime, timedelta

In [30]:
# Kết nối đến database trong bộ nhớ RAM
conn = sqlite3.connect(":memory:")
cursor = conn.cursor()

# Tạo bảng student
cursor.execute("""
    CREATE TABLE student (
        student_id INTEGER PRIMARY KEY,
        name TEXT,
        class TEXT,
        course_id INTEGER,
        score REAL
    );
""")

# Thêm dữ liệu vào bảng student
student_data = [
    (1, 'Nguyen Minh Hoang', 'May Tinh', 12, 6.7),
    (2, 'Tran Thi Lan', 'Kinh Te', 34, 9.2),
    (3, 'Pham Van Nam', 'Toan Tin', None, 7.9),
    (4, 'Le Thanh Huyen', 'Toan Tin', 20, 7.2),
    (5, 'Vu Quoc Anh', 'May Tinh', 24, 8.0),
    (6, 'Dang Thuy Linh', 'May Tinh', 24, 5.5),
    (7, 'Bui Tien Dung', 'Kinh Te', 34, 9.2),
    (8, 'Ho Ngoc Mai', 'Toan Tin', 20, 8.8),
    (9, 'Duong Huu Phuc', 'Kinh Te', None, 7.2),
    (10, 'Cao Thi Hanh', 'May Tinh', None, 7.0)
]

In [31]:
cursor.executemany("INSERT INTO student VALUES (?, ?, ?, ?, ?);", student_data)
# Tạo bảng course
cursor.execute("""
    CREATE TABLE course (
        id INTEGER PRIMARY KEY,
        course_name TEXT
    );
""")

# Thêm dữ liệu vào bảng course
course_data = [
    (12, 'Giai tich'),
    (34, 'Thong ke'),
    (26, 'Tin hoc')
]
cursor.executemany("INSERT INTO course VALUES (?, ?);", course_data)

# Truy vấn và hiển thị dữ liệu bằng Pandas
df_student = pd.read_sql_query("SELECT * FROM student", conn)
df_course = pd.read_sql_query("SELECT * FROM course", conn)

print("Bảng Student:")
display(df_student)  
print("\nBảng Course:")
display(df_course)  

Bảng Student:


Unnamed: 0,student_id,name,class,course_id,score
0,1,Nguyen Minh Hoang,May Tinh,12.0,6.7
1,2,Tran Thi Lan,Kinh Te,34.0,9.2
2,3,Pham Van Nam,Toan Tin,,7.9
3,4,Le Thanh Huyen,Toan Tin,20.0,7.2
4,5,Vu Quoc Anh,May Tinh,24.0,8.0
5,6,Dang Thuy Linh,May Tinh,24.0,5.5
6,7,Bui Tien Dung,Kinh Te,34.0,9.2
7,8,Ho Ngoc Mai,Toan Tin,20.0,8.8
8,9,Duong Huu Phuc,Kinh Te,,7.2
9,10,Cao Thi Hanh,May Tinh,,7.0



Bảng Course:


Unnamed: 0,id,course_name
0,12,Giai tich
1,26,Tin hoc
2,34,Thong ke


# 1


## Kết nối bảng sử dụng tích Decartes

In [18]:
df_cross_join = pd.read_sql_query("""
    SELECT * 
    FROM student 
    CROSS JOIN course;
""", conn)

display(df_cross_join)

Unnamed: 0,student_id,name,class,course_id,score,id,course_name
0,1,Nguyen Minh Hoang,May Tinh,12.0,6.7,12,Giai tich
1,1,Nguyen Minh Hoang,May Tinh,12.0,6.7,26,Tin hoc
2,1,Nguyen Minh Hoang,May Tinh,12.0,6.7,34,Thong ke
3,2,Tran Thi Lan,Kinh Te,34.0,9.2,12,Giai tich
4,2,Tran Thi Lan,Kinh Te,34.0,9.2,26,Tin hoc
5,2,Tran Thi Lan,Kinh Te,34.0,9.2,34,Thong ke
6,3,Pham Van Nam,Toan Tin,,7.9,12,Giai tich
7,3,Pham Van Nam,Toan Tin,,7.9,26,Tin hoc
8,3,Pham Van Nam,Toan Tin,,7.9,34,Thong ke
9,4,Le Thanh Huyen,Toan Tin,20.0,7.2,12,Giai tich


- Mỗi dòng của student sẽ kết hợp với mỗi dòng của course.
- Kết quả sẽ có 10 x 3 = 30 dòng.

### INNER JOIN

In [None]:
df_inner_join = pd.read_sql_query("""
    SELECT student.*, course.course_name
    FROM student
    INNER JOIN course ON student.course_id = course.id;
""", conn)

display(df_inner_join)

Unnamed: 0,student_id,name,class,course_id,score,course_name
0,1,Nguyen Minh Hoang,May Tinh,12,6.7,Giai tich
1,2,Tran Thi Lan,Kinh Te,34,9.2,Thong ke
2,7,Bui Tien Dung,Kinh Te,34,9.2,Thong ke


- Chỉ có 3 dòng được giữ lại vì chỉ có course_id 12 và 34 tồn tại trong bảng course.
- Các course_id = 20, 24, và None bị loại bỏ.

### LEFT JOIN

In [None]:
df_left_join = pd.read_sql_query("""
    SELECT student.*, course.course_name
    FROM student
    LEFT JOIN course ON student.course_id = course.id;
""", conn)

display(df_left_join)

Unnamed: 0,student_id,name,class,course_id,score,course_name
0,1,Nguyen Minh Hoang,May Tinh,12.0,6.7,Giai tich
1,2,Tran Thi Lan,Kinh Te,34.0,9.2,Thong ke
2,3,Pham Van Nam,Toan Tin,,7.9,
3,4,Le Thanh Huyen,Toan Tin,20.0,7.2,
4,5,Vu Quoc Anh,May Tinh,24.0,8.0,
5,6,Dang Thuy Linh,May Tinh,24.0,5.5,
6,7,Bui Tien Dung,Kinh Te,34.0,9.2,Thong ke
7,8,Ho Ngoc Mai,Toan Tin,20.0,8.8,
8,9,Duong Huu Phuc,Kinh Te,,7.2,
9,10,Cao Thi Hanh,May Tinh,,7.0,


- Giữ tất cả dữ liệu từ bảng student.
- Nếu không có course_id phù hợp, course_name sẽ là NaN.

### RIGHT JOIN

In [None]:
df_right_join = pd.read_sql_query("""
    SELECT course.*, student.student_id, student.name, student.class, student.score
    FROM course
    LEFT JOIN student ON course.id = student.course_id;
""", conn)

display(df_right_join)

Unnamed: 0,id,course_name,student_id,name,class,score
0,12,Giai tich,1.0,Nguyen Minh Hoang,May Tinh,6.7
1,26,Tin hoc,,,,
2,34,Thong ke,7.0,Bui Tien Dung,Kinh Te,9.2
3,34,Thong ke,2.0,Tran Thi Lan,Kinh Te,9.2


- Giữ tất cả dữ liệu từ course.
- Nếu id trong course không có course_id phù hợp trong student, cột student_id sẽ là NaN.
- Tin hoc (id=26) không có sinh viên học nên student_id = NaN.

### FULL OUTER JOIN

In [None]:
df_full_outer_join = pd.read_sql_query("""
    SELECT student.*, course.course_name
    FROM student
    LEFT JOIN course ON student.course_id = course.id
    UNION
    SELECT student.*, course.course_name
    FROM course
    LEFT JOIN student ON course.id = student.course_id;
""", conn)
display(df_full_outer_join)

Unnamed: 0,student_id,name,class,course_id,score,course_name
0,,,,,,Tin hoc
1,1.0,Nguyen Minh Hoang,May Tinh,12.0,6.7,Giai tich
2,2.0,Tran Thi Lan,Kinh Te,34.0,9.2,Thong ke
3,3.0,Pham Van Nam,Toan Tin,,7.9,
4,4.0,Le Thanh Huyen,Toan Tin,20.0,7.2,
5,5.0,Vu Quoc Anh,May Tinh,24.0,8.0,
6,6.0,Dang Thuy Linh,May Tinh,24.0,5.5,
7,7.0,Bui Tien Dung,Kinh Te,34.0,9.2,Thong ke
8,8.0,Ho Ngoc Mai,Toan Tin,20.0,8.8,
9,9.0,Duong Huu Phuc,Kinh Te,,7.2,


- Giữ tất cả dữ liệu từ cả hai bảng.
- Nếu không có course_id phù hợp trong course, course_name sẽ là NaN.
- Nếu không có student phù hợp, student_id sẽ là NaN.

# 2

In [None]:
# Hiển thị dữ liệu ban đầu
df_student_initial = pd.read_sql_query("SELECT * FROM student;", conn)
print("\nDữ liệu ban đầu trong bảng student:")
print(df_student_initial)

# Cập nhật course_id bị thiếu (sửa lỗi cập nhật cùng một giá trị)
print("\nCập nhật course_id bị thiếu...")
cursor.execute("""
    UPDATE student
    SET course_id = (
        SELECT id FROM course ORDER BY RANDOM() LIMIT 1
    )
    WHERE student_id IN (
        SELECT student_id FROM student WHERE course_id IS NULL
    );
""")
conn.commit()

# Hiển thị dữ liệu sau khi cập nhật
df_student_updated = pd.read_sql_query("SELECT * FROM student;", conn)
print("\nDữ liệu sau khi cập nhật course_id:")
print(df_student_updated)

# Xóa các bản ghi có course_id không hợp lệ
print("\nXóa các bản ghi có course_id không hợp lệ...")
cursor.execute("""
    DELETE FROM student
    WHERE course_id NOT IN (SELECT id FROM course) OR course_id IS NULL;
""")
conn.commit()

# Hiển thị dữ liệu sau khi xóa
df_student_cleaned = pd.read_sql_query("SELECT * FROM student;", conn)
print("\nDữ liệu sau khi loại bỏ bản ghi không hợp lệ:")
print(df_student_cleaned)


Dữ liệu ban đầu trong bảng student:
   student_id               name     class  course_id  score
0           1  Nguyen Minh Hoang  May Tinh         12    6.7
1           2       Tran Thi Lan   Kinh Te         34    9.2
2           3       Pham Van Nam  Toan Tin         12    7.9
3           7      Bui Tien Dung   Kinh Te         34    9.2
4           9     Duong Huu Phuc   Kinh Te         12    7.2
5          10       Cao Thi Hanh  May Tinh         12    7.0

Cập nhật course_id bị thiếu...

Dữ liệu sau khi cập nhật course_id:
   student_id               name     class  course_id  score
0           1  Nguyen Minh Hoang  May Tinh         12    6.7
1           2       Tran Thi Lan   Kinh Te         34    9.2
2           3       Pham Van Nam  Toan Tin         12    7.9
3           7      Bui Tien Dung   Kinh Te         34    9.2
4           9     Duong Huu Phuc   Kinh Te         12    7.2
5          10       Cao Thi Hanh  May Tinh         12    7.0

Xóa các bản ghi có course_id không hợp 

- Trước khi cập nhật: Một số sinh viên có course_id bị thiếu hoặc không khớp với dữ liệu trong bảng course.
- Sau khi cập nhật: Các giá trị course_id bị thiếu được điền từ bảng course, và các bản ghi không hợp lệ bị loại bỏ.
- Dữ liệu sau khi làm sạch: Chỉ còn lại các sinh viên có course_id hợp lệ.

## a. Tổng số sinh viên, điểm trung bình của từng lớp.

In [None]:
query_class = """
    SELECT class, COUNT(*) AS total_students, AVG(score) AS avg_score
    FROM student
    GROUP BY class;
"""
df_class = pd.read_sql_query(query_class, conn)
print("\nTổng số sinh viên & điểm trung bình theo lớp:\n", df_class)


Tổng số sinh viên & điểm trung bình theo lớp:
       class  total_students  avg_score
0   Kinh Te               3   8.533333
1  May Tinh               2   6.850000
2  Toan Tin               1   7.900000


- Lớp Kinh Tế có số lượng sinh viên cao nhất (3 sinh viên) và điểm trung bình cao nhất (8.53).
- Lớp Toán Tin có điểm trung bình (7.9).
- Lớp Máy Tính có điểm trung bình thấp hơn (6.85).

## b. Tổng số sinh viên, điểm trung bình của từng môn học.

In [None]:
query_course = """
    SELECT course.course_name, COUNT(student.student_id) AS total_students, AVG(student.score) AS avg_score
    FROM student
    JOIN course ON student.course_id = course.id
    GROUP BY course.course_name;
"""
df_course = pd.read_sql_query(query_course, conn)
print("\nTổng số sinh viên & điểm trung bình theo môn học:\n", df_course)


Tổng số sinh viên & điểm trung bình theo môn học:
   course_name  total_students  avg_score
0   Giai tich               4        7.2
1    Thong ke               2        9.2


Môn Giải Tích có nhiều sinh viên đăng ký nhất (4 sinh viên) nhưng điểm trung bình thấp hơn so với Thống kê.

## c. Phân loại thi đua theo số điểm của từng môn học biết:
i. Điểm TB ≥ 9.0: Xuất sắc.
ii. 6.0 ≤ Điểm TB ≤ 8.9: Tốt.
iii. Điểm TB < 6.0: Kém.

In [None]:
query_ranking = """
    SELECT course.course_name, 
           AVG(student.score) AS avg_score,
           CASE 
               WHEN AVG(student.score) >= 9.0 THEN 'Xuất sắc'
               WHEN AVG(student.score) BETWEEN 6.0 AND 8.9 THEN 'Tốt'
               ELSE 'Kém'
           END AS classification
    FROM student
    JOIN course ON student.course_id = course.id
    GROUP BY course.course_name;
"""
df_ranking = pd.read_sql_query(query_ranking, conn)
print("\nPhân loại thi đua theo môn học:\n", df_ranking)


Phân loại thi đua theo môn học:
   course_name  avg_score classification
0   Giai tich        7.2            Tốt
1    Thong ke        9.2       Xuất sắc


- Giải tích đạt loại Tốt
- Thống kê đạt loại Xuất sắc 

# 3.

In [None]:
query_overall = """
SELECT student_id, name, class, course_id, score,
       RANK() OVER (ORDER BY score DESC) AS rank_overall
FROM student
ORDER BY rank_overall;
"""
df_overall = pd.read_sql_query(query_overall, conn)

print("Xếp hạng sinh viên theo điểm số:")
print(df_overall)

print("\nTop 3 sinh viên có điểm cao nhất:")
print(df_overall.head(3))

print("\nTop 3 sinh viên có điểm thấp nhất:")
print(df_overall.tail(3))

Xếp hạng sinh viên theo điểm số:
   student_id               name     class  course_id  score  rank_overall
0           2       Tran Thi Lan   Kinh Te         34    9.2             1
1           7      Bui Tien Dung   Kinh Te         34    9.2             1
2           3       Pham Van Nam  Toan Tin         12    7.9             3
3           9     Duong Huu Phuc   Kinh Te         12    7.2             4
4          10       Cao Thi Hanh  May Tinh         12    7.0             5
5           1  Nguyen Minh Hoang  May Tinh         12    6.7             6

Top 3 sinh viên có điểm cao nhất:
   student_id           name     class  course_id  score  rank_overall
0           2   Tran Thi Lan   Kinh Te         34    9.2             1
1           7  Bui Tien Dung   Kinh Te         34    9.2             1
2           3   Pham Van Nam  Toan Tin         12    7.9             3

Top 3 sinh viên có điểm thấp nhất:
   student_id               name     class  course_id  score  rank_overall
3           

- Xếp hạng theo điểm số:
  + Tran Thi Lan, Bui Tien Dung (9.2 điểm)
  + Pham Van Nam (7.9 điểm)
  + Duong Huu Phuc (7.2 điểm)
  + Cao Thi Hanh (7.0 điểm)
  + Nguyen Minh Hoang (6.7 điểm)
- Top 3 sinh viên có điểm cao nhất:
  + Tran Thi Lan - 9.2 điểm
  + Bui Tien Dung - 9.2 điểm
  + Pham Van Nam - 7.9 điểm
- Top 3 sinh viên có điểm thấp nhất:
  + Duong Huu Phuc - 7.2 điểm
  + Cao Thi Hanh - 7.0 điểm
  + Nguyen Minh Hoang - 6.7 điểm

In [None]:
query_class = """
SELECT student_id, name, class, course_id, score,
       RANK() OVER (PARTITION BY class ORDER BY score DESC) AS rank_by_class
FROM student;
"""
df_class = pd.read_sql_query(query_class, conn)
print("\nXếp hạng sinh viên theo lớp học:")
print(df_class)

print("\nTop 3 sinh viên có điểm cao nhất trong từng lớp:")
print(df_class.groupby('class').head(3))

print("\nTop 3 sinh viên có điểm thấp nhất trong từng lớp:")
print(df_class.groupby('class').tail(3))


Xếp hạng sinh viên theo lớp học:
   student_id               name     class  course_id  score  rank_by_class
0           2       Tran Thi Lan   Kinh Te         34    9.2              1
1           7      Bui Tien Dung   Kinh Te         34    9.2              1
2           9     Duong Huu Phuc   Kinh Te         12    7.2              3
3          10       Cao Thi Hanh  May Tinh         12    7.0              1
4           1  Nguyen Minh Hoang  May Tinh         12    6.7              2
5           3       Pham Van Nam  Toan Tin         12    7.9              1

Top 3 sinh viên có điểm cao nhất trong từng lớp:
   student_id               name     class  course_id  score  rank_by_class
0           2       Tran Thi Lan   Kinh Te         34    9.2              1
1           7      Bui Tien Dung   Kinh Te         34    9.2              1
2           9     Duong Huu Phuc   Kinh Te         12    7.2              3
3          10       Cao Thi Hanh  May Tinh         12    7.0              1
4   

- Xếp hạng theo lớp học:
  + Tran Thi Lan - Kinh Te - 9.2
  + Bui Tien Dung - Kinh Te - 9.2
  + Duong Huu Phuc - Kinh Te - 7.2              
  + Cao Thi Hanh - May Tinh - 7.0
  + Nguyen Minh Hoang - May Tinh - 6.7
  + Pham Van Nam - Toan Tin - 7.9
- Top 3 sinh viên có điểm cao nhất trong từng lớp:
  + Tran Thi Lan - Kinh Tế - 9.2 điểm
  + Bui Tien Dung - Kinh Tế - 9.2 điểm
  + Duong Huu Phuc - Kinh Tế - 7.2 điểm
  Toán Tin:
  + Pham Van Nam - Toan Tin - 7.9 điểm
  Máy Tính:
  + Cao Thi Hanh - May Tinh - 7.0 điểm
  + Nguyen Minh Hoang - May Tinh - 6.7 điểm
- Top 3 sinh viên có điểm thấp nhất trong từng lớp:
  + Kinh Tế: Duong Huu Phuc - 7.2 điểm
  + Toán Tin: Pham Van Nam - 7.9 điểm
  + Máy Tính: Cao Thi Hanh - 7.0 điểm và Nguyen Minh Hoang - 6.7 điểm

In [None]:
query_course = """
SELECT student_id, name, class, course_id, score,
       RANK() OVER (PARTITION BY course_id ORDER BY score DESC) AS rank_by_course
FROM student;
"""
df_course = pd.read_sql_query(query_course, conn)
print("\nXếp hạng sinh viên theo mã môn học:")
print(df_course)

print("\nTop 3 sinh viên có điểm cao nhất trong từng mã môn học:")
print(df_course.groupby('course_id').head(3))

print("\nTop 3 sinh viên có điểm thấp nhất trong từng mã môn học:")
print(df_course.groupby('course_id').tail(3))


Xếp hạng sinh viên theo mã môn học:
   student_id               name     class  course_id  score  rank_by_course
0           3       Pham Van Nam  Toan Tin         12    7.9               1
1           9     Duong Huu Phuc   Kinh Te         12    7.2               2
2          10       Cao Thi Hanh  May Tinh         12    7.0               3
3           1  Nguyen Minh Hoang  May Tinh         12    6.7               4
4           2       Tran Thi Lan   Kinh Te         34    9.2               1
5           7      Bui Tien Dung   Kinh Te         34    9.2               1

Top 3 sinh viên có điểm cao nhất trong từng mã môn học:
   student_id            name     class  course_id  score  rank_by_course
0           3    Pham Van Nam  Toan Tin         12    7.9               1
1           9  Duong Huu Phuc   Kinh Te         12    7.2               2
2          10    Cao Thi Hanh  May Tinh         12    7.0               3
4           2    Tran Thi Lan   Kinh Te         34    9.2              

- Xếp hạng sinh viên theo mã môn học:
  + 12: Pham Van Nam - 7.9
        Duong Huu Phuc - 7.2
        Cao Thi Hanh - 7.0
        Nguyen Minh Hoang - 6.7
  + 34: Tran Thi Lan - 9.2
        Bui Tien Dung - 9.2
- Top 3 sinh viên có điểm cao nhất trong từng mã môn học:
  + 12: Pham Van Nam - 7.9
        Duong Huu Phuc - 7.2
        Cao Thi Hanh - 7.0
  + 34: Tran Thi Lan - 9.2
        Bui Tien Dung - 9.2
- Top 3 sinh viên có điểm thấp nhất trong từng mã môn học:
  + 12: Duong Huu Phuc - 7.2
        Cao Thi Hanh - 7.0
        Nguyen Minh Hoang - 6.7
  + 34: Tran Thi Lan - 9.2
        Bui Tien Dung - 9.2

# 4.

In [None]:
# Thêm cột graduation_date 
try:
    cursor.execute("ALTER TABLE student ADD COLUMN graduation_date DATETIME;")
    conn.commit()
except sqlite3.OperationalError:
    print("Cột graduation_date đã tồn tại, tiếp tục cập nhật dữ liệu...")

# Truy vấn xếp hạng sinh viên theo điểm số
query_rank = """
SELECT student_id, score, RANK() OVER (ORDER BY score DESC) AS rank_overall
FROM student;
"""
df_rank = pd.read_sql_query(query_rank, conn)

# Lấy thời gian hiện tại
current_date = datetime.now()

# Cập nhật graduation_date cho từng sinh viên
for index, row in df_rank.iterrows():
    student_id = row["student_id"]
    rank = row["rank_overall"]
    grad_date = current_date + timedelta(days=rank)  

    cursor.execute("""
        UPDATE student
        SET graduation_date = ?
        WHERE student_id = ?;
    """, (grad_date.strftime("%Y-%m-%d %H:%M:%S"), student_id))

# Lưu thay đổi
conn.commit()

# Hiển thị dữ liệu sau khi cập nhật
df_updated = pd.read_sql_query("SELECT * FROM student;", conn)
print("\nDữ liệu sau khi cập nhật graduation_date:")
print(df_updated)

Cột graduation_date đã tồn tại, tiếp tục cập nhật dữ liệu...

Dữ liệu sau khi cập nhật graduation_date:
   student_id               name     class  course_id  score  \
0           1  Nguyen Minh Hoang  May Tinh         12    6.7   
1           2       Tran Thi Lan   Kinh Te         34    9.2   
2           3       Pham Van Nam  Toan Tin         12    7.9   
3           7      Bui Tien Dung   Kinh Te         34    9.2   
4           9     Duong Huu Phuc   Kinh Te         12    7.2   
5          10       Cao Thi Hanh  May Tinh         12    7.0   

       graduation_date  
0  2025-03-17 23:28:54  
1  2025-03-12 23:28:54  
2  2025-03-14 23:28:54  
3  2025-03-12 23:28:54  
4  2025-03-15 23:28:54  
5  2025-03-16 23:28:54  


- Nguyen Minh Hoang (Lớp: May Tinh)  
  + Mã môn học: 12  
  + Điểm số: 6.7  
  + Ngày tốt nghiệp:17/03/2025 
- Tran Thi Lan (Lớp: Kinh Te)  
  + Mã môn học: 34  
  + Điểm số: 9.2  
  + Ngày tốt nghiệp: 12/03/2025 
- Pham Van Nam (Lớp: Toan Tin)  
  + Mã môn học: 34  
  + Điểm số: 7.9  
  + Ngày tốt nghiệp: 14/03/2025
- Bui Tien Dung (Lớp: Kinh Te)  
  + Mã môn học: 34  
  + Điểm số: 9.2  
  + Ngày tốt nghiệp: 12/03/2025 
- Duong Huu Phuc (Lớp: Kinh Te)  
  + Mã môn học: 12  
  + Điểm số: 7.2  
  + Ngày tốt nghiệp: 15/03/2025  
- Cao Thi Hanh (Lớp: May Tinh)  
  + Mã môn học: 12  
  + Điểm số: 7.0  
  + Ngày tốt nghiệp: 16/03/2025 