为练习 SQL 语句，特意将表填入 mysql 中，然后使用 python 对数据库操作

In [5]:
import pandas as pd

df = pd.read_csv("./data/UserBehavior_part.csv")

# 情境 A：将数据表写入 mysql
已经处理好数据，想将结果写入到数据库中。
使用 pandas 的 io.sql.to_sql()。

In [6]:
# 与 mysql 建立连接（固定写法）
from sqlalchemy import create_engine

# 参数形式：“dialect+driver://username:password@host:port/database”
# dialect，数据库类型，大概包括：sqlite, mysql, postgresql, oracle, or mysql
# driver，是使用的数据库API，驱动，连接包
# username，用户名
# password，密码
# host，网络地址，可以用ip，域名，计算机名，只要是能访问到的
# port，数据库端口，可通过命令 show global variables like "port" 查看
# database，（已存在的）数据库名
conn_eng = create_engine("mysql+pymysql://root:1234abcd@localhost:3306/taobao", encoding="utf8")

# 调用 pandas 的方法，数据写入 taobao 数据库中的表 user_behavior
pd.io.sql.to_sql(df, "user_behavior", conn_eng, if_exists="replace", index=False)

使用 to_sql() 的优点是无需自己提前建表，将自动建新表。美中不足是：表的列属性自动生成，通常不合心意，还需检查和修改。

# 情境 B：python 脚本从 mysql 拿数据
数据库中已存在某个表格，但想在 python 中处理，则需要在 python 中使用 sql 语句将数据先取出来。
使用 pandas 的 read_sql()。

In [7]:
import pymysql

# 与 pymysql 建立连接
conn = pymysql.connect(host="localhost",
                       user="root",
                       password= "1234abcd",
                       database="taobao")

# 将 sql 语句定义为一个字符串
sql_search = "SELECT * FROM user_behavior;"

# 调用 pandas 的 read_sql() 方法执行 sql 语句，获取 dataframe 结果
df = pd.read_sql(sql_search, conn)

# 执行完所有 sql 语句后必须关闭连接
conn.close()

df.head()

Unnamed: 0,customer_id,product_id,product_category_id,behavior_type,time_stamp
0,726027,1376740,2892802,pv,1512224887
1,489422,3911911,1265358,pv,1511958690
2,649519,1721829,2440115,pv,1512110279
3,556136,4152590,903809,pv,1511747452
4,1009769,3227805,4719814,pv,1511695257


# 情境 C：仅在 python 中执行 sql 语句
如果不仅仅是取数据，而是可能会执行多条 sql 语句进行增删改等操作，此时要创建 cursor 对象，通过它执行 sql 语句。

In [8]:
import pymysql

# 与 mysql 建立连接
conn = pymysql.connect(host="localhost",
                       user="root",
                       password= "1234abcd",
                       database="taobao")

# 创建 cursor 对象，只能通过它执行数据库语句
cursor = conn.cursor()

# sql 语句定义一个字符串，插入一行数据
sql_1 = "INSERT INTO user_behavior(user_id, product_id, product_category_id, behavior_type, time_stamp) \
             VALUES('726027', '1376740', '2892802', 'pv', '1512224887');"

# 增加一个递增的数字主键（并将其放在最前面位置，使用 FIRST）
sql_2 = "ALTER TABLE user_behavior ADD COLUMN ind INT NOT NULL AUTO_INCREMENT PRIMARY KEY FIRST;"

# 修改各列的数据类型，因为 pandas 默认添加的数据类型太大了
sql_3 = "ALTER TABLE user_behavior \
             MODIFY COLUMN user_id INT, \
             MODIFY COLUMN product_id INT, \
             MODIFY COLUMN product_category_id INT, \
             MODIFY COLUMN behavior_type CHAR(20), \
             MODIFY time_stamp INT;"

# 删除刚才插入的一行，用删除重复行的方式（虽然 insert into 默认插入在最后一行，但是尽量不要使用序号来删除，因为 sql 中不强调顺序，可能造成不稳定的结果）
# 在 mysql 中，选择（SELECT）的对象不能同时更新（DELETE 也算一种更新），因此，此处在子查询的基础上多加了一层 SELECT（“ SELECT min_inds FROM ... ”）
# 注意，如果子查询被当作表格使用（比如置于 FROM 后面时），那么该子查询的结果一定要有一个别名，比如本例中的 temp 表。
sql_4 = "DELETE FROM user_behavior WHERE ind NOT IN ( \
             SELECT temp.min_inds FROM ( \
                SELECT MIN(ind) AS min_inds FROM user_behavior GROUP BY user_id, product_id, product_category_id, behavior_type, time_stamp \
             ) AS temp \
         );"

# 其他可能用到的语句
# sql_more = "ALTER TABLE user_behavior DROP COLUMN ind;"  # 删除 ind 列

# 执行指令
cursor.execute(sql_1)
cursor.execute(sql_2)
cursor.execute(sql_3)
cursor.execute(sql_4)

# 提交指令才能对数据库做出更新
conn.commit()

# 关闭连接
cursor.close()
conn.close()