# 關聯式資料庫

### https://github.com/ywchiu/cdc_course/blob/master/Demo20190924.ipynb
### https://github.com/ywchiu/cdc_course/blob/master/Demo20170920.ipynb

###【資料庫】SQL 3小時初學者教學 
### https://www.youtube.com/watch?v=gvRXjsrpCHw
### https://www.youtube.com/watch?v=wBhv0SWWfNQ&list=PL2SrkGHjnWcy0n1bNe5sAPB3snlGmdpkV&index=1

### 安全存儲、管理資料:有效管理磁碟上的資料
### 保持資料的一致性:ACID 四原則
### 可以透過標準模型整合資料:使用SQL 操作資料

### 檔案的壞處:一次只能給一個人使用，多人使用會破壞一致性
### 資料庫 → 多人共用的"電子檔案櫃"，資料皆為結構化資料，可以用SQL語句來操作資料

# SQLite資料庫操作簡介
https://nkust.gitbook.io/python/sqlite-liao-cao-zuo-jie

In [4]:
import sqlite3 as lite
con = lite.connect('test.sqlite') #連線到資料庫test.sqlite，但其實他是個檔案，安全性不優
con.close() #每次都要關檔，改成with con的寫法

# 操作資料庫

In [5]:
import sqlite3 as lite
# 建立連線
con = lite.connect('test.sqlite')
with con:
    # 建立游標 (Cursor)
    cur = con.cursor()
    # 使用游標檢視資料
    cur.execute('SELECT SQLITE_VERSION();')
    # 拿取游標選取到的資料，fetchone拿一筆資料的意思
    data = cur.fetchone() 
    print(data)

('3.35.4',)


## 建立資料

In [6]:
import sqlite3 as lite 
with lite.connect("test.sqlite") as con: 
    cur = con.cursor() 
    cur.execute("DROP TABLE IF EXISTS PhoneAddress") 
    cur.execute("CREATE TABLE PhoneAddress(phone CHAR(10) PRIMARY KEY, address TEXT, name TEXT unique, age INT NOT NULL)") 
    cur.execute("INSERT INTO PhoneAddress VALUES('0912173381','United State','Jhon Doe',53)") 
    cur.execute("INSERT INTO PhoneAddress VALUES('0928375018','Tokyo Japan','MuMu Cat',6)") 
    cur.execute("INSERT INTO PhoneAddress VALUES('0957209108','Taipei','Richard',29)") 
    cur.execute("SELECT phone,address FROM PhoneAddress") 
    data = cur.fetchall() 
    for rec in data:
        print(rec)
        #print(rec[0], rec[1])

('0912173381', 'United State')
('0928375018', 'Tokyo Japan')
('0957209108', 'Taipei')


# CRUD 新增(Create); 查詢(Read); 修改(Update); 刪除(Delete)

In [14]:
import sqlite3 as lite
# 建立連線
con = lite.connect('test.sqlite')
with con:
    # 建立游標 (Cursor) 刪除(Delete)
    cur = con.cursor()
    
    # 如果primary key值已存在，就使用游標捨棄資料表，做資料庫管理
    cur.execute(''' DROP TABLE IF EXISTS PhoneAddress;
                ''')
    
    # 建立綱要：(Create)使用游標建立資料表PhoneAddress，電話是primary key來做資料庫管理
    cur.execute('''CREATE TABLE PhoneAddress(
                        phone   CHAR(10) PRIMARY KEY, 
                        address TEXT,
                        name    TEXT NOT NULL,
                        age     INT NOT NULL
                    );                        
                ''')
    
    # 修改(Update):使用游標新增資料
    # 可以在DB Browser下sql撈取資料、也可以在db直接去修改資料
    cur.execute("INSERT INTO PhoneAddress(phone, address, name, age)\
                 VALUES('0912173381','United State','JhonDoe',53);")
    cur.execute("INSERT INTO PhoneAddress(phone, address, name, age)\
                 VALUES('0928375018','Tokyo Japan','MuMuCat',6);")
    cur.execute("INSERT INTO PhoneAddress(phone, address, name, age)\
                 VALUES('0957209108','Taipei','Richard',29);")
    cur.execute("INSERT INTO PhoneAddress(phone, address, name, age)\
                 VALUES('0976362478','Thailand','Bruce',27);")\
    
    # 拿取游標下sql撈取資料:  *表所有欄位
    cur.execute('SELECT * FROM PhoneAddress;')
    
    data = cur.fetchall() #fetchall拿出所有資料
    print(data)

[('0912173381', 'United State', 'JhonDoe', 53), ('0928375018', 'Tokyo Japan', 'MuMuCat', 6), ('0957209108', 'Taipei', 'Richard', 29), ('0976362478', 'Thailand', 'Bruce', 27)]


# 修改資料

In [16]:
import sqlite3 as lite
# 建立連線
con = lite.connect('test.sqlite')
with con:
    # 建立游標 (Cursor)
    cur = con.cursor()
    
    # 拿取游標撈取資料
    cur.execute('SELECT * FROM PhoneAddress;')
    
    #修改前
    data = cur.fetchall()
    print('BEFORE UPDATE:', data)
    
    # 使用游標修改資料 UPDATE...SET...WHERE
    cur.execute("UPDATE PhoneAddress SET address = 'Shenjian' \
                WHERE phone = '0957209108'; ")
    
    # 拿取游標撈取資料
    cur.execute('SELECT * FROM PhoneAddress;')
    
    # 修改後
    data = cur.fetchall()
    print('AFTER UPDATE:', data)

BEFORE UPDATE: [('0912173381', 'United State', 'JhonDoe', 53), ('0928375018', 'Tokyo Japan', 'MuMuCat', 6), ('0957209108', 'Shenjian', 'Richard', 29), ('0976362478', 'Thailand', 'Bruce', 27)]
AFTER UPDATE: [('0912173381', 'United State', 'JhonDoe', 53), ('0928375018', 'Tokyo Japan', 'MuMuCat', 6), ('0957209108', 'Shenjian', 'Richard', 29), ('0976362478', 'Thailand', 'Bruce', 27)]


# 下sql操作資料庫，撈取資料

In [23]:
import sqlite3 as lite
# 建立連線
con = lite.connect('test.sqlite')
with con:
    # 建立游標 (Cursor)
    cur = con.cursor()
    
    # 使用SELECT 語法操作資料庫
    # cur.execute('SELECT * FROM PhoneAddress;') *表所有欄位
    cur.execute('SELECT phone, address, name, age \
                   FROM PhoneAddress;')
    
    # 一次只拿一筆，包在tuple
    data = cur.fetchone()
    print('GET ONE DATA:', data)
    
    print('===================')
    
     # 一次拿所有，包在list，拿出第一筆之後
    data = cur.fetchall()
    print('GET ALL DATA:')
    for rec in data:
        #print(rec)
        print(rec[0], rec[2])
    
   

GET ONE DATA: ('0912173381', 'United State', 'JhonDoe', 53)
GET ALL DATA:
0928375018 MuMuCat
0957209108 Richard
0976362478 Bruce


# 使用不同的"SELECT 語法"撈取資料

In [21]:
import sqlite3 as lite
# 建立連線
con = lite.connect('test.sqlite')
with con:
    # 建立游標 (Cursor)
    cur = con.cursor()
    
    # 方法一:使用SELECT 撈取所有資料
    cur.execute('SELECT phone, address, name, age \
                   FROM PhoneAddress;')
    data = cur.fetchall()
    print('GET ALL DATA:')
    for rec in data: #列出所有
        print(rec)
        
        
    # 方法二:使用WHERE 篩選資料 、WHERE欄位條件
    cur.execute('SELECT phone, address, name, age \
                   FROM PhoneAddress WHERE age >= 30;')
    data = cur.fetchall()
    print('GET AGE ABOVE 30:')
    for rec in data:
        print(rec)
        
    # 方法三:使用ORDER BY 排序資料
    # ASC => 由小到大, DESC => 由大到小
    cur.execute('SELECT phone, address, name, age \
                   FROM PhoneAddress ORDER BY age DESC;')
    data = cur.fetchall()
    print('GET DATA BY AGE ORDER:')
    for rec in data:
        print(rec)
        
    # 方法四:使用LIMIT 限制資料筆數
    cur.execute('SELECT phone, address, name, age \
                   FROM PhoneAddress ORDER BY age DESC LIMIT 2;')
    data = cur.fetchall()
    print('GET 2 DATA BY AGE ORDER:')
    for rec in data:
        print(rec)

GET ALL DATA:
('0912173381', 'United State', 'JhonDoe', 53)
('0928375018', 'Tokyo Japan', 'MuMuCat', 6)
('0957209108', 'Shenjian', 'Richard', 29)
('0976362478', 'Thailand', 'Bruce', 27)
GET AGE ABOVE 30:
('0912173381', 'United State', 'JhonDoe', 53)
GET DATA BY AGE ORDER:
('0912173381', 'United State', 'JhonDoe', 53)
('0957209108', 'Shenjian', 'Richard', 29)
('0976362478', 'Thailand', 'Bruce', 27)
('0928375018', 'Tokyo Japan', 'MuMuCat', 6)
GET 2 DATA BY AGE ORDER:
('0912173381', 'United State', 'JhonDoe', 53)
('0957209108', 'Shenjian', 'Richard', 29)


# 使用SQL做資料分析

In [24]:
import sqlite3 as lite
# 建立連線
con = lite.connect('test.sqlite')
with con:
    # 建立游標 (Cursor)
    cur = con.cursor()

    # 統計筆數:COUNT 
    cur.execute('SELECT COUNT(*) \
                   FROM PhoneAddress;')    
    cnt = cur.fetchone()
    print('GET DATA COUNTS:')
    print(cnt)
    
    # 計算平均年齡:AVG(欄位) 
    cur.execute('SELECT AVG(age) \
                   FROM PhoneAddress;')
    age = cur.fetchone()
    print('GET AVERAGE AGE:')
    print(age)

    # 先新增性別gender欄位:ALTER TABLE 資料表
    cur.execute('ALTER TABLE PhoneAddress \
                   ADD COLUMN gender;')
    # 先全部設為都男性
    cur.execute("UPDATE PhoneAddress SET gender = 'M';")   
    
    # 根據性別計算平均年齡:GROUP BY 
    cur.execute('SELECT gender, AVG(age) \
                   FROM PhoneAddress GROUP BY gender;')
    data = cur.fetchall()
    print('GET AGE BY GENDER:')
    for rec in data:
        print(rec)

GET DATA COUNTS:
(4,)
GET AVERAGE AGE:
(28.75,)
GET AGE BY GENDER:
('M', 28.75)


### 使用pandas操作資料庫

In [38]:
import pandas as pd
employee = [{'name':'Mary', 'age':23 , 'gender': 'F'},
            {'name':'John', 'age':33 , 'gender': 'M'}]
df = pd.DataFrame(employee)
df

Unnamed: 0,name,age,gender
0,Mary,23,F
1,John,33,M


In [39]:
with lite.connect('test.sqlite') as db:
    df.to_sql('employee', con = db, if_exists='replace' )

In [41]:
with lite.connect('test.sqlite') as db:
    df2 = pd.read_sql_query('SELECT * FROM employee;', con = db, 
                                index_col= 'index')

In [42]:
df2

Unnamed: 0_level_0,name,age,gender
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Mary,23,F
1,John,33,M


# pandas是把資料塞進記憶體
# 資料庫可以巧妙運用記憶體空間

# 把爬蟲的資料塞進資料庫實例 
### 0920 1:27:00

In [27]:
import pandas as pd
fic = pd.read_excel('fic.xlsx')
fic.head(10)

Unnamed: 0.1,Unnamed: 0,author,content,dt,source,title
0,0,kickingbird,2017年8月14日，湘西自治州報告一例人感染H7N9流感確診病例。患者莫某某，48歲，以收...,2017-08-15 11:58:00,湖南省疾病預防控制中心,中國：湖南省湘西自治州報告一例人感染H7N9流感確診病例
1,1,kickingbird,衛生署衛生防護中心今日（八月四日）正監察國家衛生和計劃生育委員會通報在七月二十八日至八月三日...,2017-08-05 19:19:00,香港衛生防護中心,中國：香港衛生防護中心獲通報福建人類感染甲型禽流感（H7N9）個案
2,2,kickingbird,農業部新聞辦公室8月1日發布，內蒙古自治區通遼市科爾沁區發生一起家禽H5N1亞型高致病性禽流...,2017-08-05 19:16:00,中國農業部,中國：內蒙古自治區通遼市科爾沁區發生一起家禽H5N1亞型高致病性禽流感疫情
3,3,kickingbird,有關陽性樣品說明：\n 一、H7亞型禽流感血清學陽性樣品（3018份）\n （一）北京...,2017-07-26 10:34:00,中國農業部,中國：2017年6月全國動物H7N9流感監測情況
4,4,kickingbird,香港衛生署衛生防護中心（七月二十一日）正監察國家衛生和計劃生育委員會通報在七月十四至二十日期...,2017-07-23 16:48:00,香港衛生防護中心,中國：香港衛生防護中心獲通報江蘇人類感染甲型禽流感(H7N9)個案
5,5,kickingbird,6月20日-7月4日，新疆建設兵團報告1例H7N9流感病例。6月30日，新疆建設兵團第七師醫...,2017-07-08 15:58:00,新疆建設兵團衛生局,中國：新疆報告1例H7N9流感病例
6,6,kickingbird,雲南省衛生計生委6月28日通報：雲南省衛生計生委在強化流感和不明原因肺炎監測中，從流感病例中...,2017-06-29 09:11:00,雲南省衛生計生委,中國：雲南省文山市確診4例H7N9病例
7,7,kickingbird,2017年6月16日~6月22日，河北全省共報告3例人感染H7N9病例，均為滄州市病例。衛生...,2017-06-28 08:42:00,河北省衛生計生委,中國：河北省H7N9疫情通報（6月16日~6月22日）
8,8,kickingbird,1、一株類禽型H1N1亞型豬流感病毒的反向遺傳系統的建立. 中國預防獸醫學報2013年02期...,2017-07-01 09:02:00,F.I.C,文獻：反向遺傳操作文獻合集（中文）
9,9,kickingbird,2017年6月19日，貴州醫科大學附屬白雲分院報告1例不明原因肺炎病例，貴陽市疾控中心標本檢...,2017-06-22 09:02:00,貴州省衛生計生委,中國：貴陽市白雲區確診1例人感染H7N9流感病例


# 把爬蟲到的資料裝進去

### 建立資料表綱要

In [33]:
import sqlite3 as lite
# 建立連線
con = lite.connect('test.sqlite')
with con:
    # 建立游標 (Cursor)
    cur = con.cursor()
    
    # 使用游標捨棄資料表
    cur.execute(''' DROP TABLE IF EXISTS fic;
                ''')
    
    # 使用游標建立資料表fic
    cur.execute('''CREATE TABLE fic(
                        content TEXT,
                        dt      DATETIME,
                        source  VARCHAR(100),
                        title   TEXT
                    );                        
                ''')

### 新增資料:使用SQL語句 ，搭配for迴圈

In [34]:
# cur.execute("INSERT INTO PhoneAddress(phone, address, name, age)\
# VALUES('0912173381','United State','JhonDoe',53);")

INSERT_STMT = "INSERT INTO fic(content, source, title, dt) \
                        VALUES('{}','{}','{}','{}')"
for rec in fic.iterrows():
    content = rec[1]['content'] #每一筆資料都有索引、內容，我取出內容
    source = rec[1]['source']
    title = rec[1]['title']
    dt = rec[1]['dt']
    print(INSERT_STMT.format(content, source, title, dt))

INSERT INTO fic(content, source, title, dt)                         VALUES('2017年8月14日，湘西自治州報告一例人感染H7N9流感確診病例。患者莫某某，48歲，以收廢品為業，現居住於吉首市，有高血壓病史。患者於8月9日發病，13日經醫院搶救無效死亡。患者標本經湘西自治州疾控中心、湖南省疾控中心實驗室檢測和複核為H7N9流感病毒核酸陽性。    專家提醒，目前雖天氣炎熱，仍可能會出現人感染H7N9流感散發病例，敬請廣大群眾做好預防措施。','湖南省疾病預防控制中心','中國：湖南省湘西自治州報告一例人感染H7N9流感確診病例','2017-08-15 11:58:00')
INSERT INTO fic(content, source, title, dt)                         VALUES('衛生署衛生防護中心今日（八月四日）正監察國家衛生和計劃生育委員會通報在七月二十八日至八月三日期間，福建新增一宗人類感染甲型禽流感（H7N9）個案，並強烈呼籲市民，不論在本地或外遊期間，應時刻保持個人、食物和環境衛生。　　該名福建58歲男病人曾到活家禽養殖場，於七月十九日發病。','香港衛生防護中心','中國：香港衛生防護中心獲通報福建人類感染甲型禽流感（H7N9）個案','2017-08-05 19:19:00')
INSERT INTO fic(content, source, title, dt)                         VALUES('農業部新聞辦公室8月1日發布，內蒙古自治區通遼市科爾沁區發生一起家禽H5N1亞型高致病性禽流感疫情。　　7月28日，內蒙古自治區通遼市科爾沁區獸醫部門在監測中發現一養殖場飼養的蛋雞出現疑似禽流感症狀，發病35000只，死亡15000只。7月29日，自治區動物疫病預防控制中心診斷為疑似禽流感疫情。8月1日，經國家禽流感參考實驗室確診，該起疫情為H5N1亞型高致病性禽流感疫情。　　疫情發生後，當地按照有關預案和防治技術規範要求，堅持依法防控、科學防控，切實做好疫情處置工作，已撲殺和無害化處理66500只家禽。目前，該起疫情已得到有效控制。','中國農業部','中國：內蒙古自治區通遼市科爾沁區發生一起家禽H5N1亞型

# 使用SQL 新增資料 (II)

In [35]:
import sqlite3 as lite

INSERT_STMT = "INSERT INTO fic(content, source, title, dt) \
                        VALUES('{}','{}','{}','{}')"

# 建立連線
con = lite.connect('test.sqlite')
with con:
    # 建立游標 (Cursor)
    cur = con.cursor()
    for rec in fic.iterrows():
        content = rec[1]['content']
        source = rec[1]['source']
        title = rec[1]['title']
        dt = rec[1]['dt']
        cur.execute(INSERT_STMT.format(content, source, title, dt))

# 最佳做法:使用Pandas 將DataFrame 匯入資料庫

In [36]:
import sqlite3 as lite
# 建立連線
con = lite.connect('test.sqlite')
with con:
    fic.to_sql('fic_data', con = con)

  sql.to_sql(


# PANDAS操作資料庫

In [37]:
import pandas as pd
# 建立連線
con = lite.connect('test.sqlite')
with con:
    df2 = pd.read_sql_query('select source, count(*)as cnt from fic_data group by source order by count(*) desc limit 3', con = con)
df2

Unnamed: 0,source,cnt
0,中國農業部,12
1,河北省衛生計生委,9
2,重慶市衛生計生委,6


# 如果資料量遠大於記憶體，就要用資料庫來做統計，sqlite能操作TB級資料

# [MySQL] SELECT, FROM, WHERE, GROUP-BY, HAVING, ORDER-BY, LIMIT
### https://clay-atlas.com/blog/2019/11/19/sql-tutorial-instruction-select-from-where-groupby-having-orderby-limit/