In [1]:
import numpy as np
import pandas as pd

In [2]:
import sqlite3

# 1. Làm quen SQL

## 1.1. Kết nối CSDL và kiểm tra các bảng thông tin

In [3]:
# Kết nối đế CSDL
conn = sqlite3.connect('database/Chinook_Sqlite.sqlite')

In [4]:
# Tạo cursor để thực thi lệnh truy vấn
cursor = conn.cursor()

In [5]:
# Thực thi lệnh và gọi hàm fetchall để trả về toàn bộ kết quả
cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
res = cursor.fetchall()

In [6]:
print(res)

[('Album',), ('Artist',), ('Customer',), ('Employee',), ('Genre',), ('Invoice',), ('InvoiceLine',), ('MediaType',), ('Playlist',), ('PlaylistTrack',), ('Track',)]


## 1.2. Kiểm tra thông tin của một bảng 

In [7]:
# Truy vấn thông tin mô tả của một bảng nào đó
cursor.execute("PRAGMA table_info(Employee)")
info = cursor.fetchall()

In [8]:
info

[(0, 'EmployeeId', 'INTEGER', 1, None, 1),
 (1, 'LastName', 'NVARCHAR(20)', 1, None, 0),
 (2, 'FirstName', 'NVARCHAR(20)', 1, None, 0),
 (3, 'Title', 'NVARCHAR(30)', 0, None, 0),
 (4, 'ReportsTo', 'INTEGER', 0, None, 0),
 (5, 'BirthDate', 'DATETIME', 0, None, 0),
 (6, 'HireDate', 'DATETIME', 0, None, 0),
 (7, 'Address', 'NVARCHAR(70)', 0, None, 0),
 (8, 'City', 'NVARCHAR(40)', 0, None, 0),
 (9, 'State', 'NVARCHAR(40)', 0, None, 0),
 (10, 'Country', 'NVARCHAR(40)', 0, None, 0),
 (11, 'PostalCode', 'NVARCHAR(10)', 0, None, 0),
 (12, 'Phone', 'NVARCHAR(24)', 0, None, 0),
 (13, 'Fax', 'NVARCHAR(24)', 0, None, 0),
 (14, 'Email', 'NVARCHAR(60)', 0, None, 0)]

In [9]:
# Lấy ra thông tin mô tả chung của truy vấn hiện tại
# Lưu ý: 6 giá trị None ở mỗi dòng (thông tin cột) là để 
#        tương thích với Python DB API
#        cid = column id
cursor.description

(('cid', None, None, None, None, None, None),
 ('name', None, None, None, None, None, None),
 ('type', None, None, None, None, None, None),
 ('notnull', None, None, None, None, None, None),
 ('dflt_value', None, None, None, None, None, None),
 ('pk', None, None, None, None, None, None))

In [10]:
# Biến thông tin đã truy vấn thành dataframe của pandas
pd.DataFrame(info, columns= [item[0] for item in cursor.description])

Unnamed: 0,cid,name,type,notnull,dflt_value,pk
0,0,EmployeeId,INTEGER,1,,1
1,1,LastName,NVARCHAR(20),1,,0
2,2,FirstName,NVARCHAR(20),1,,0
3,3,Title,NVARCHAR(30),0,,0
4,4,ReportsTo,INTEGER,0,,0
5,5,BirthDate,DATETIME,0,,0
6,6,HireDate,DATETIME,0,,0
7,7,Address,NVARCHAR(70),0,,0
8,8,City,NVARCHAR(40),0,,0
9,9,State,NVARCHAR(40),0,,0


## 1.3. Truy vấn dữ liệu từ bảng 

**Cách thực hiện truy vấn cơ bản**

In [11]:
# Thử truy vấn tất cả thông tin trong một bảng
cursor.execute("SELECT * FROM Employee")
cursor.fetchall()

[(1,
  'Adams',
  'Andrew',
  'General Manager',
  None,
  '1962-02-18 00:00:00',
  '2002-08-14 00:00:00',
  '11120 Jasper Ave NW',
  'Edmonton',
  'AB',
  'Canada',
  'T5K 2N1',
  '+1 (780) 428-9482',
  '+1 (780) 428-3457',
  'andrew@chinookcorp.com'),
 (2,
  'Edwards',
  'Nancy',
  'Sales Manager',
  1,
  '1958-12-08 00:00:00',
  '2002-05-01 00:00:00',
  '825 8 Ave SW',
  'Calgary',
  'AB',
  'Canada',
  'T2P 2T3',
  '+1 (403) 262-3443',
  '+1 (403) 262-3322',
  'nancy@chinookcorp.com'),
 (3,
  'Peacock',
  'Jane',
  'Sales Support Agent',
  2,
  '1973-08-29 00:00:00',
  '2002-04-01 00:00:00',
  '1111 6 Ave SW',
  'Calgary',
  'AB',
  'Canada',
  'T2P 5M5',
  '+1 (403) 262-3443',
  '+1 (403) 262-6712',
  'jane@chinookcorp.com'),
 (4,
  'Park',
  'Margaret',
  'Sales Support Agent',
  2,
  '1947-09-19 00:00:00',
  '2003-05-03 00:00:00',
  '683 10 Street SW',
  'Calgary',
  'AB',
  'Canada',
  'T2P 5G3',
  '+1 (403) 263-4423',
  '+1 (403) 263-4289',
  'margaret@chinookcorp.com'),
 (5,


In [12]:
# Truy vấn thử một số thông tin từ 1 bảng nào đó
cursor.execute("SELECT EmployeeId AS EID, Firstname, Lastname FROM Employee")
cursor.fetchall()

[(1, 'Andrew', 'Adams'),
 (2, 'Nancy', 'Edwards'),
 (3, 'Jane', 'Peacock'),
 (4, 'Margaret', 'Park'),
 (5, 'Steve', 'Johnson'),
 (6, 'Michael', 'Mitchell'),
 (7, 'Robert', 'King'),
 (8, 'Laura', 'Callahan')]

In [13]:
# Tạo câu truy vấn (dễ kiểm tra hơn) và gọi lệnh thực hiện
query = """
        SELECT EmployeeId, Firstname, Lastname, HireDate, Country 
        FROM Employee 
        --WHERE Country != 'USA'
        --LIMIT(5)
"""
cursor.execute(query)
cursor.fetchall()

[(1, 'Andrew', 'Adams', '2002-08-14 00:00:00', 'Canada'),
 (2, 'Nancy', 'Edwards', '2002-05-01 00:00:00', 'Canada'),
 (3, 'Jane', 'Peacock', '2002-04-01 00:00:00', 'Canada'),
 (4, 'Margaret', 'Park', '2003-05-03 00:00:00', 'Canada'),
 (5, 'Steve', 'Johnson', '2003-10-17 00:00:00', 'Canada'),
 (6, 'Michael', 'Mitchell', '2003-10-17 00:00:00', 'Canada'),
 (7, 'Robert', 'King', '2004-01-02 00:00:00', 'Canada'),
 (8, 'Laura', 'Callahan', '2004-03-04 00:00:00', 'Canada')]

**Tạo DataFrame từ kết quả truy vấn**

In [14]:
# Tiếp tục gọi fetchall() và đưa và dataFrame
# cursor.execute(query)
df = pd.DataFrame(cursor.fetchall())
df

In [15]:
# Phải thực hiện query lại 
cursor.execute(query)
df = pd.DataFrame(cursor.fetchall(), columns=[item[0] for item in cursor.description])
df

Unnamed: 0,EmployeeId,FirstName,LastName,HireDate,Country
0,1,Andrew,Adams,2002-08-14 00:00:00,Canada
1,2,Nancy,Edwards,2002-05-01 00:00:00,Canada
2,3,Jane,Peacock,2002-04-01 00:00:00,Canada
3,4,Margaret,Park,2003-05-03 00:00:00,Canada
4,5,Steve,Johnson,2003-10-17 00:00:00,Canada
5,6,Michael,Mitchell,2003-10-17 00:00:00,Canada
6,7,Robert,King,2004-01-02 00:00:00,Canada
7,8,Laura,Callahan,2004-03-04 00:00:00,Canada


**Thêm một số xử lý vào câu truy vấn**

In [16]:
# Truy vấn với sự sắp xếp theo 1 cột nào đó
query = """
        SELECT EmployeeId, Firstname, Lastname, HireDate, Country 
        FROM Employee 
        -- WHERE Country != 'USA'
        ORDER BY HireDate ASC
        LIMIT(20)
"""
cursor.execute(query)
df = pd.DataFrame(cursor.fetchall(), columns=[item[0] for item in cursor.description])
df

Unnamed: 0,EmployeeId,FirstName,LastName,HireDate,Country
0,3,Jane,Peacock,2002-04-01 00:00:00,Canada
1,2,Nancy,Edwards,2002-05-01 00:00:00,Canada
2,1,Andrew,Adams,2002-08-14 00:00:00,Canada
3,4,Margaret,Park,2003-05-03 00:00:00,Canada
4,5,Steve,Johnson,2003-10-17 00:00:00,Canada
5,6,Michael,Mitchell,2003-10-17 00:00:00,Canada
6,7,Robert,King,2004-01-02 00:00:00,Canada
7,8,Laura,Callahan,2004-03-04 00:00:00,Canada


In [17]:
# Truy vấn với việc chuyển đổi text sang Date
query = """
        SELECT EmployeeId, Firstname, Lastname, DATE(HireDate) as HDate, Country 
        FROM Employee 
        ORDER BY HDate DESC
        --LIMIT(20)
"""
cursor.execute(query)
fetch_data = cursor.fetchall()

col_list = [item[0] for item in cursor.description]

df = pd.DataFrame(fetch_data, columns=col_list)
df

Unnamed: 0,EmployeeId,FirstName,LastName,HDate,Country
0,8,Laura,Callahan,2004-03-04,Canada
1,7,Robert,King,2004-01-02,Canada
2,5,Steve,Johnson,2003-10-17,Canada
3,6,Michael,Mitchell,2003-10-17,Canada
4,4,Margaret,Park,2003-05-03,Canada
5,1,Andrew,Adams,2002-08-14,Canada
6,2,Nancy,Edwards,2002-05-01,Canada
7,3,Jane,Peacock,2002-04-01,Canada


In [18]:
# Truy vấn với ràng buộc về ngày
query = """
        SELECT EmployeeId, Firstname, Lastname, DATE(HireDate) as HireDate, Country 
        FROM Employee 
        WHERE HireDate BETWEEN '2003-01-01' AND '2003-12-31'
        ORDER BY HireDate Desc
        -- LIMIT(20)
"""
cursor.execute(query)
df = pd.DataFrame(cursor.fetchall(), columns=[item[0] for item in cursor.description])
df

Unnamed: 0,EmployeeId,FirstName,LastName,HireDate,Country
0,5,Steve,Johnson,2003-10-17,Canada
1,6,Michael,Mitchell,2003-10-17,Canada
2,4,Margaret,Park,2003-05-03,Canada


# 2. Demo tạo CSDL với SQLite

## 2.1. Kết nối database

In [19]:
# db = sqlite3.connect(':memory:')
con = sqlite3.connect('database/example.db')

In [20]:
cur = con.cursor()

In [None]:
#con.close()

## 2.2. Một số lệnh đơn giản

# Bảng `PhongBan`

**Tạo bảng PhongBan**

In [25]:
query = """
            CREATE TABLE PhongBan (
                            id_phongban INTEGER,
                            ten NVARCHAR(50) NOT NULL,
                            id_truongphong INTEGER,
                            PRIMARY KEY (id_phongban)
            )
"""
cur.execute(query)
con.commit()

**Thêm dữ liệu vào bảng `PhongBan`**

In [26]:
query = """ INSERT INTO PhongBan
            VALUES(1, 'Phong Nhan Su', 0)
"""
cur.execute(query)
con.commit()

In [24]:
# Thử xóa phòng ban
cur.execute("DROP TABLE IF EXISTS phongban")
con.commit()

**Tạo lại bảng và thêm data vào bảng `PhongBan`**

In [27]:
# Thêm vào và có id
query = """
        INSERT INTO phongban 
        VALUES(4, 'Phong Ke Toan', NULL)
"""
cur.execute(query)
con.commit()

In [29]:
# Thêm vào mà không set id
query = """
        INSERT INTO phongban (ten)
        VALUES('Phong San Xuat')
"""
cur.execute(query)
con.commit()

**Thêm một loạt các dòng vào bảng**

In [30]:
phongban_list = [
    ('Phong Kinh Doanh - Marketing', None),
    ('Phong Ky Thuat', None),
    ('Phong R&D', None)
]
phongban_list

[('Phong Kinh Doanh - Marketing', None),
 ('Phong Ky Thuat', None),
 ('Phong R&D', None)]

In [31]:
# Thêm một list các phòng ban bằng lệnh executemany 
query = """
        INSERT INTO PhongBan(ten, id_truongphong)
        VALUES(?,?)
"""
cur.executemany(query, phongban_list)
con.commit()

# Bảng `NhanVien`

**Tạo bảng `NhanVien` và thêm dữ liệu**

In [32]:
query = """
        CREATE TABLE nhanvien (id_nhanvien INTEGER PRIMARY KEY,
                               ho TEXT NOT NULL, 
                               ten TEXT NOT NULL,
                               email TEXT NOT NULL UNIQUE,
                               id_phongban INTEGER NOT NULL, 
                               id_quanly INTEGER,
                               ngay_batdau DATETIME,
                               luong REAL NOT NULL)
"""
cur.execute(query)
con.commit()

In [33]:
query = """
        INSERT INTO nhanvien (ho, ten, email, id_phongban, luong)
        VALUES('Tran', 'Van A', 'atran@gmail.com', 3, 15000)
"""
cur.execute(query)
con.commit()

In [34]:
query = """
        INSERT INTO nhanvien (ho, ten, email, id_phongban, luong)
        VALUES('Nguyen', 'Quang C', 'cnguyen@gmail.com', 1, 18000)
"""
cur.execute(query)
con.commit()

In [35]:
query = """
        INSERT INTO nhanvien (ho, ten, email, id_phongban, luong)
        VALUES('Pham', 'Van Binh', 'binhpham12345@gmail.com', 3, 18000)
"""
cur.execute(query)
con.commit()

**Update thông tin cho các bảng sau khi thêm được thông tin nhân viên** <br>
- Trưởng phòng là ai?
- Người quản lý là ai?

In [36]:
cur.execute("SELECT * FROM nhanvien WHERE id_phongban=3")
cur.fetchall()

[(1, 'Tran', 'Van A', 'atran@gmail.com', 3, None, None, 15000.0),
 (3, 'Pham', 'Van Binh', 'binhpham12345@gmail.com', 3, None, None, 18000.0)]

In [37]:
# Update trưởng phòng cho phòng id=3
query = """
        UPDATE PhongBan
        SET id_truongphong=1
        WHERE id_phongban=3
"""
cur.execute(query)
con.commit()

In [38]:
# Update người quản lý cho nhân viên có id=2
query = """
        UPDATE NhanVien
        SET id_quanly=1
        WHERE id_nhanvien=3
"""
cur.execute(query)
con.commit()

**Thử xóa một dòng**

In [39]:
query = """
        DELETE FROM nhanvien
        WHERE id_nhanvien=2
"""
cur.execute(query)
con.commit()