<style>
* {
    font-family: consolas,'Microsoft YaHei';
}
p {
    line-height: 1.5em;
    font-size: 20px;
}
</style>
---
<center>
<h1>第八课</h1>
</center>

## **主题**：常见关系型与非关系型数据库及操作介绍

## 纲要
### 1. 基于sqlite3的轻量级访问
### 2. 通过Pandas访问数据库
### 3. 基于Mysql的企业级数据存储
### 4. 对象关系映射（ORM）库—SQLAlchemy介绍
### 5. 利用MongoDB存储数据
### 6. 利用Redis存储数据
### 7. 利用memcached存储数据
---



<p>其中，sqlite3和mysql为关系型数据库，MongoDB、Redis和memcache为非关系型（NoSQL）数据库。</p>

<p>关系型数据库是由数据表汇集而成，这些数据表中的数据是按照数据项之间的关系进行组织。这里的关系，也可以是某个数据表中的行数据与其他数据表中的行数据之间的关系。</p>

<p>伴随着大数据和Web应用的流行，非关系型（Not Only SQL，NoSQL）数据库也开始野蛮生长。NoSQL系统将成为类SQL事实上的标准。NoSQL数据库的主旨在于，使用比关系模型更为灵活的方式来存储数据。但灵活性和速度也是有代价的，例如无法始终保证事务的一致性。NoSQL数据库可以利用面向列的方法以字典的形式来储存数据，这些数据对象包括文档、对象、图、元组，甚至这些对象的组合体。</p>

<center>
<img src="image\sql_nosql.png" />
</center>

## 1. 基于sqlite3的轻量级访问

<p>SQLite是一款非常流行的关系型数据库，因它非常轻盈而被大量应用程序广泛采纳。在python中，使用sqlite3可以对SQLite数据库进行读写。</p>

In [None]:
import sqlite3
import os

print('当前程序执行目录: ', os.getcwd())

# with sqlite3.connect(":memory:") as con:
with sqlite3.connect("test.db") as con:
    c = con.cursor()
    c.execute('CREATE TABLE sensors (date text, city text, code text, sensor_id real, temperature real)')

    for table in c.execute("SELECT name FROM sqlite_master WHERE type = 'table'"):
        print("Table", table[0])

    c.execute("INSERT INTO sensors VALUES ('2016-11-05','Utrecht','Red',42,15.14)")
    c.execute("INSERT INTO sensors VALUES ('2020-11-18','Vector','Red',42,15.14)")
    c.execute("SELECT * FROM sensors")
    print(c.fetchone())
    # con.execute("DROP TABLE sensors")

    print("# of tables", c.execute("SELECT COUNT(*) FROM sqlite_master WHERE type = 'table'").fetchone()[0])


## 2. 通过Pandas访问数据库
<p>pandas提供了read_sql函数可直接从一个数据库连接会话执行查询语句。</p>

In [None]:
import sqlite3
import statsmodels.api as sm
from pandas.io.sql import read_sql
import os

print('当前程序执行目录: ', os.getcwd())

# with sqlite3.connect(":memory:") as con:
with sqlite3.connect("test.db") as con:
    c = con.cursor()
    data_loader = sm.datasets.sunspots.load_pandas()
    df = data_loader.data
    rows = [tuple(x) for x in df.values]

    con.execute("CREATE TABLE sunspots(year int, sunactivity)")
    con.executemany("INSERT INTO sunspots(year, sunactivity) VALUES (?, ?)", rows)
    c.execute("SELECT COUNT(*) FROM sunspots")
    print(c.fetchone())
    print("Deleted", con.execute("DELETE FROM sunspots where sunactivity > 20").rowcount, "rows")

    print(read_sql("SELECT * FROM sunspots where year < 1732", con))
    # con.execute("DROP TABLE sunspots")


## 3. 基于Mysql的企业级数据存储

<p>由于Mysql良好的稳定性和安全性,同时也是免费开源的，使得它在互联网企业中广受欢迎。下面是压缩版mysql简要的安装过程。</p>


1. 解压压缩包并进入解压后的目录

2. 在当前目录创建my.ini配置文件，内容如下：
    ```ini
    [mysqld]
    basedir=/Users/carmel/ENV/mysql-8.0.21
    datadir=/Users/carmel/ENV/mysql-8.0.21/data

    long_query_time=4
    # lower_case_table_names=2
    # min_examined_row_limit=400
    log-bin=/Users/carmel/ENV/mysql-8.0.21/log/bin.log
    # binlog日志格式
    binlog_format=STATEMENT
    log_bin_trust_function_creators=1
    # mysql系统错误日志输出
    log_error=/Users/carmel/ENV/mysql-8.0.21/log/error.log
    # 开启慢日志记录
    slow_query_log=1
    # 定义慢日志输出的路径
    slow_query_log_file=/Users/carmel/ENV/mysql-8.0.21/log/slow_query.log
    # 开启普通日志
    general_log=1
    # 定义普通日志输出的路径
    general_log_file=/Users/carmel/ENV/mysql-8.0.21/log/general-query.log

    character-set-server=UTF8MB4
    collation-server=utf8mb4_unicode_ci

    ```
3. 初始化Mysql
    ```shell
    $ mysqld --initialize-insecure --console
    ```

4. 启动MySQL并以免密方式登陆MySQL去设置新密码
    ```shell
    $ mysqld --console #加console选项可查看debug信息
    $ mysql -u root --skip-password
    $ ALTER USER 'root'@'localhost' IDENTIFIED BY 'root-password';
    ```

<p>在开始代码演示前，请确保已经安装好了MySQL数据库服务并保证它能正常运行，同时需要安装好PyMySQL库。接下来，我们使用PyMySQL作为客户端来演示连接MySQL数据库。</p>

In [None]:
import pymysql

db = pymysql.connect(host='localhost', port=3306,
                     user='root', password='root')
cursor = db.cursor()
cursor.execute('SELECT VERSION()')
data = cursor.fetchone()
print('Database version:', data)

# 执行sql语句创建数据库spiders
cursor.execute("CREATE DATABASE spiders DEFAULT CHARACTER SET utf8")
# 执行sql语句指定要操作的数据库
cursor.execute('USE spiders')
# 执行sql语句创建student表
sql = 'CREATE TABLE IF NOT EXISTS student (id VARCHAR(255) NOT NULL,\
       name VARCHAR(255) NOT NULL, age INT NOT NULL, PRIMARY KEY (id))'
cursor.execute(sql)
# 执行sql语句插入一条学生记录
sql1 = 'INSERT INTO student(id, name, age) values(%s, %s, %s)'
data = {'id': '20120002', 'name': 'Vector', 'age': 30}
sql2 = 'INSERT INTO {table}({keys}) VALUES ({values})'.format(
    table='student',
    keys=', '.join(data.keys()),
    values=', '.join(['%s'] * len(data)))

try:
    cursor.execute(sql1, ('20120001', 'Bob', 20))
    cursor.execute(sql2, tuple(data.values()))
    db.commit()
except Exception as e:
    print(e)
    db.rollback()

try:
    cursor.execute('SELECT * FROM student')
    print('Count:', cursor.rowcount)
    row = cursor.fetchone()
    # rows = cursor.fetchall()
    while row:
        print('Row:', row)
        row = cursor.fetchone()
except Exception as e:
    print(e)
finally:
    db.close()

## 4. 对象关系映射（ORM）库—SQLAlchemy介绍

<p>SQLAlchemy以基于设计模式（design pattern）的对象关系映射（ORM）。也就是说，它可以把Python的类映射为数据库的数据表。因此，我们需要使用SQLAlchemy应用程序接口来跟数据库打交道，而非使用SQL命令。使用SQLAlchemy的优点是，它能够在幕后替我们处理各种细节。缺点是我们不得不学习其应用程序接口，同时它的性能也会有所下降。</p>

<p>既是ORM，首先就需要按照SQLAlchemy的规则创建Object对象的类。随后便可通过SQLAlchemy创建的数据库会话对相应的对象实例进行SQL相关操作。</p>

In [None]:
from sqlalchemy import Column, ForeignKey, Integer, String, Float
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import relationship
from sqlalchemy.orm import sessionmaker
from sqlalchemy import create_engine
from sqlalchemy import UniqueConstraint

Base = declarative_base()
# 创建对象实体
class Station(Base):
    __tablename__ = 'station'
    id = Column(Integer, primary_key=True)
    name = Column(String(14), nullable=False, unique=True)

    def __repr__(self):
        return "Id=%d name=%s" %(self.id, self.name)

class Sensor(Base):
    __tablename__ = 'sensor'
    id = Column(Integer, primary_key=True)
    last = Column(Integer)
    multiplier = Column(Float)
    station_id = Column(Integer, ForeignKey('station.id'))
    station = relationship(Station)

    def __repr__(self):
        return "Id=%d last=%d multiplier=%.1f station_id=%d"
# %(self.id, self.last, self.multiplier, self.station_id)

# 填充数据库
def populate(engine):
    Base.metadata.bind = engine

    DBSession = sessionmaker(bind=engine)
    session = DBSession()

    de_bilt = Station(name='De Bilt')
    session.add(de_bilt)
    session.add(Station(name='Utrecht'))
    session.commit()
    print("Station", de_bilt)

    temp_sensor = Sensor(last=20, multiplier=.1, station=de_bilt)
    session.add(temp_sensor)
    session.commit()
    print("Sensor", temp_sensor)

if __name__ == "__main__":
    # engine = create_engine('sqlite:///test.db')
    engine = create_engine(
        "mysql+pymysql://root:root@localhost:3306/spiders",
        encoding= "utf-8",
        echo=True
    )
    Base.metadata.create_all(engine)
    populate(engine)
    Base.metadata.bind = engine
    DBSession = sessionmaker()
    DBSession.bind = engine
    session = DBSession()

    station = session.query(Station).first()

    print("Query 1", session.query(Station).all())
    print("Query 2", session.query(Sensor).all())
    print("Query 3", session.query(Sensor).filter(Sensor.station == station).one())
    print(read_sql("SELECT * FROM station", engine.raw_connection()))

    # try:
    #     os.remove('demo.db')
    #     print("Deleted demo.db")
    # except OSError:
    #     pass

## 5. 利用MongoDB存储数据

<p>MongoDB是一个免费开源的面向文档的NoSQL数据库，其名称取自humongous一词，即硕大无比之意，其文档将以类似JSON的BSON格式进行存储。下面先介绍一下MongoDB的安装步骤。</p>

注意：MongoDB 4.2以后的版本将不再支持Windows 7系统，因此要在Windows 7系统上安装MongoDB需下载4.2及以下版本。

1. 在[官网下载](https://www.mongodb.com/try/download/community)`MongoDB Community Server`的Zip压缩版本。

2. 解压Zip压缩包，将解压后的目录重命名为`mongodb`

3. 在当前目录下打开命令行执行以下命令来创建数据库的数据及日志目录

    ```bat
    md data\db log
    ```

4. 创建配置文件`mongod.cfg`，内容如下：

    ```yaml
    systemLog:
        destination: file
        # 日志输出目录
        path: "D:\\DB\\mongodb\\log\\mongo.log"
        # 是否以追加方式记录日志
        logAppend: true
        # 是否忽略debug信息
        quiet: true
    storage:
        # 数据库目录
        dbPath: "D:\\DB\\mongodb\\data\\db"
        journal:
            # 是否启用日志文件
            enabled: true
    net:
        # 绑定ip地址
        bindIp: 0.0.0.0
        # 指定端口号
        port: 27017
    setParameter:
        # 是否允许绕过身份验证
        enableLocalhostAuthBypass: false
    security:
        # 是否启用安全认证 (enabled / disabled)
        authorization: disabled
    ```

5. 转到`mongodb\bin`目录执行命令开启MongoDB服务同时设置登录用户名及密码：

    ```bat
    mongod --config "..\mongod.cfg"
    mongo
    > use admin
    > db.createUser(
    {
        user: "Admin",
        pwd: passwordPrompt(), // or cleartext password
        roles: [ { role: "userAdminAnyDatabase", db: "admin" }, "readWriteAnyDatabase" ]
    }
    )
    ```

6. 重启mongod进程并将`security.authorization`改成`enabled`再使用`mongo`命令重新登陆

    ```bat
    mongod --config "..\mongod.cfg"
    mongo -u "Admin" -p "admin" --authenticationDatabase "admin"
    ```


In [None]:
from pymongo import MongoClient, ASCENDING
# from bson.objectid import ObjectId

client = MongoClient(host='localhost',
                     port=27017,
                     username='Admin',
                     password='admin')
# 读取所有数据库
dblist = client.list_database_names()
DBName = 'spiders'
print('{}数据库存在'.format(DBName)) if DBName in dblist else print(
    '{}数据库不存在'.format(DBName))
spiders = client[DBName]
# 读取spiders数据库中的所有集合
print('list_collection_names: {}'.format(spiders.list_collection_names()))
# 声明一个student集合对象
spiders['student'].drop()
student = spiders['student']
record = {'_id': '20170101', 'name': 'Vector', 'age': 30, 'gender': 'male'}
result = student.insert_one(record)
record = [{'_id': '20170102', 'name': 'Jordan', 'age': 20, 'gender': 'male'},
          {'_id': '20170203', 'name': 'Mike', 'age': 21, 'gender': 'male'}]
student.insert_many(record)
print('Total: {}\n'.format(student.estimated_document_count()))

results = student.find({'name': 'Vector'}).sort('name', ASCENDING)
for result in results:
    print(result.get('_id'))
print()
results = student.find({'age': {'$gt': 18}}).skip(1).limit(2)
for result in results:
    print(result)
print()
record = student.find_one({'_id': '20170102'})
print(record)
result = student.update_one({'_id': '20170203'}, {'$set': {'name': 123, 'age': '60'}})
print('成功更新{}条记录'.format(result.modified_count))
result = student.delete_one({'name': 'vector'})
print('成功删除{}条记录'.format(result.deleted_count))
print('Total: {}'.format(student.estimated_document_count()))

## 6. 利用Redis存储数据

<p>Redis是一个in-memory型的键-值开源数据库，由C语言编写而成。Redis这个名称源自Remote Dictionary Server，即远程字典服务器。处于内存存储模式时，Redis的速度快得惊人，而且读写操作的速度几乎一样快。Redis遵循发布订阅模式并且通过Lua脚本来处理存储过程。发布订阅模式通过客户端可订阅的信道来接收消息。
<br><br>
这里使用python中提供操作redis的程序库redis。</p>

In [7]:
import redis
r = redis.StrictRedis(host='localhost', port=6379, password='88888888', db=0)
key = 'foo'
r.set(key, 'bar1221')
r.set('school', '上财浙院87')
r.set('money', 4000.00)
print(r.get(key))
print(r.type(key))
print(r.type('money'))
print(r.exists(key))
# r.move(key, 2)
# r.flushdb()
# r.delete(key)
print(r.exists(key))


b'bar1221'
b'string'
b'string'
1
1


<p>除了简单的键值数据结构对外，redis中还有列表、集合、有序集合、散列结构。在redis程序包中也相应的提供了操作接口。</p>

<p>为避免每次建立、释放连接的开销，一般使用 connection pool 来管理对一个 redis server 的所有连接。默认，每个Redis实例都会维护一个自己的连接池。可以直接建立一个连接池，然后作为参数 Redis，这样就可以实现多个 Redis 实例共享一个连接池。</p>

In [8]:
import redis    # 导入redis 模块

pool = redis.ConnectionPool(host='localhost', port=6379, password='88888888', decode_responses=True)
r = redis.Redis(connection_pool=pool)  
r.set('name', 'vector')  # 设置 name 对应的值
print(r.get('name'))  # 取出键 name 对应的值

vector


## 7. 利用memcached存储数据
<p>与Redis类似，memcache也是一个in-memory型的键-值数据库。在安装运行memcache服务器之后，可以通过程序库pymemcache进行memcache的相关操作。</p>

In [9]:
from pymemcache.client.base import Client

def do_some_query():
    # Replace with actual querying code to a database,
    # a remote REST API, etc.
    return 42

# Set `ignore_exc=True` so it is possible to shut down
# the old cache before removing its usage from 
# the program, if ever necessary.
client = Client('localhost')
client.set('some_key', 'some_value')
result = client.get('some_key')

if result is None:
    # The cache is empty, need to get the value 
    # from the canonical source:
    result = do_some_query()

    # Cache the result for next time:
    client.set('some_key', result)

print(result)

b'some_value'
