# mysql和python的整合

In [1]:
import pymysql
conn = pymysql.connect(host='127.0.0.1', user='root', passwd='720428', db='mysql')
cur = conn.cursor()
cur.execute("USE scraping")

0

In [2]:
cur.execute("SELECT * FROM pages WHERE id=1")
print(cur.fetchone())
cur.close()
conn.close()

(1, 'Test page title', 'This is some test page content.', datetime.datetime(2018, 3, 26, 0, 3, 20))


这段程序有两个对象：连接对象（conn）和光标对象（cur）。连接和光标模式是数据库编程中常用的模式。

连接模式除了要连接数据库之外，还要发送数据库信息，处理回滚操作、创建新的光标对象，等等

一个连接可以有很多个光标，一个光标跟踪一种状态信息，比如跟踪数据库的使用状态，如果有多个数据库，且需要向所有的数据库写内容，就需要多个光标来处理，光标还会包含最后一次查询的执行结果。通过调用光标函数，比如cur.fetchone()可以获取查询结果。

<div class="mark">
**用完光标和连接之后千万记得要把它们关闭，如果不关闭会导致连接泄露**</div><i class="fa fa-lightbulb-o "></i>

## 维基百科例子演示如何实现数据存储

<div class="mark">
**在进行网络数据采集时，处理Unicode字符串是很痛苦的事情。**</div><i class="fa fa-lightbulb-o "></i>

默认情况下，MySql不支持Unicode字符处理，但是可以设置这个功能（这么做会增加数据库的占用空间）

### 一开始就让数据库支持Unicode：

```
ALTER DATABASE scraping CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode_ci;
ALTER TABLE pages CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
ALTER TABLE pages CHANGE title title VARCHAR(200) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
ALTER TABLE pages CHANGE content content VARCHAR(10000) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
```

这四行语句改变的内容有：数据库、数据表、以及两个字段的默认编码都从utf8mb4(严格来说也属于Unicode，但是对大多数Unicode字符的支持都非常不好)转变成了utf8mb4_unicode_ci

存储数据的程序

In [3]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import datetime
import random
import pymysql

conn = pymysql.connect(host='127.0.0.1', user='root', passwd='720428', db='mysql', charset='utf8')
cur = conn.cursor()
cur.execute('USE scraping')
random.seed(datetime.datetime.now())

def store(title, content):
    cur.execute("INSERT INTO pages(title, content) VALUES (\"%s\", \"%s\")", (title, content))
    cur.connection.commit()

def getLinks(articleUrl):
    html = urlopen("http://en.wikipedia.org" + articleUrl)
    soup = BeautifulSoup(html, 'lxml')
    title = soup.find("h1").get_text()
    content = soup.find("div", {"id":"mw-content-text"}).find("p").get_text()
    store(title, content)
    try: 
        temp = soup.find("div", {"id":"bodyContent"}).findALL("a", href=re.compile("^(/wiki/)((?!:).)*$"))
    except Exception as e:
        return []
    else:
        return soup.find("div", {"id":"bodyContent"}).findALL("a", href=re.compile("^(/wiki/)((?!:).)*$"))

links = getLinks("/wiki/Kevin_Bacon")
try:
    while len(links) > 0:
        newArticle = links[random.randint(0, len(links)-1)].attrs["href"]
        print(newArticle)
        links = getLinks(newArticle)
finally:
    cur.close()
    conn.close()

### 以上代码注意点

- charset='utf8'要增加到连接字符串里，这是让连接conn把所有发送到数据库的信息都当成UTF-8编码格式
- store函数中，用光标执行INSERT语句，然后用光标进行连接确认，这是一个让光标和连接操作分离的好例子，当光标里存储了一些数据库与数据库上下文的信息时，需要通过连接的确认操作将该信息传给数据库，再将信息插入数据库。
- finally语句是在程序的主循环的外面，这样可以保证无论程序执行过程中如何发生中断或者抛出异常，光标和连接都会在程序结束前立即关闭。无论是采集网络还是打开一个连接的数据库，用try...finally都是一个好主意

PyMySQL另外一些非常实用的函数参考[python的DBAPI标准文档](http://legacy.python.org/dev/peps/pep-0249/)