# 第三周作业 - 在Jupyter Notebook中操作MySQL

## 本周的作业是，用Jupyter Notebook向MySQL导入数据，并将结果打包导出。

In [2]:
### 导入所需模块：
import numpy as np
import pandas as pd
import pymysql
from sqlalchemy import create_engine

## 先在终端中登录并手动新建数据库recommend. 命令如下：
### create database recommend charset="utf8";
## 然后分别用pymysql和sqlalchemy建立连接，如下：

In [3]:
connection_1 = pymysql.Connect(
    host='localhost',
    port = 3306,
    user = 'root',
    password = 'Ruhe870825!!!',
    database='recommend',
    charset='utf8'
)

In [4]:
connection_2 = create_engine("mysql+pymysql://root:Ruhe870825!!!@localhost:3306/recommend?charset=utf8")

## 连接建立后，即可对MySQL进行操作。
## 先在数据库recommend中新建5个空表，用于后续的数据导入。表格名称和存放的信息分别如下（从简单到复杂）：
### - status: 用于存放任务状态（已签单，非意向，跟进中等等）并建立id；
### - category: 用于存放客户类别并建立id；
### - customer: 用于存放客户信息（加密后的手机号，类别）并建立id. “类别”表现为数字id，与category表的类别id建立外键关系；
### - staff: 用于存放员工信息（名字，账号，密码）并建立id；
### - mission: 用于存放任务信息（客户，员工，状态，创建日期）并建立id. “客户”，“员工”，“状态”均表现为数字id，并分别与customer, staff和status三表的id建立外键关系。


In [5]:
### status变量，存放用于新建status表的SQL语句：
status = "create table status(id tinyint primary key auto_increment, status varchar(20));"
status

'create table status(id tinyint primary key auto_increment, status varchar(20));'

In [6]:
### category变量，存放用于新建category表的SQL语句：
category = "create table category(id tinyint primary key auto_increment, category varchar(100) not null);"
category

'create table category(id tinyint primary key auto_increment, category varchar(100) not null);'

In [7]:
### customer变量，存放用于新建customer表的SQL语句：
customer = "create table customer(id int primary key auto_increment, cell varchar(32), category_id tinyint, constraint cat foreign key (category_id) references category(id) on delete cascade);"
customer

'create table customer(id int primary key auto_increment, cell varchar(32), category_id tinyint, constraint cat foreign key (category_id) references category(id) on delete cascade);'

In [9]:
### staff变量，存放用于新建staff表的SQL语句：
staff = "create table staff(id int primary key auto_increment, name varchar(16), account varchar(16) unique not null, password varchar(32) not null);"
staff

'create table staff(id int primary key auto_increment, name varchar(16), account varchar(16) unique not null, password varchar(32) not null);'

In [10]:
### mission变量，存放用于新建mission表的SQL语句：
mission = "create table mission(id int primary key auto_increment, customer_id int not null, staff_id int not null, createDate date not null, status_id tinyint not null, constraint cst foreign key (customer_id) references customer(id) on delete cascade, constraint stf foreign key (staff_id) references staff(id) on delete cascade, constraint stts foreign key (status_id) references status(id) on delete cascade);"
mission

'create table mission(id int primary key auto_increment, customer_id int not null, staff_id int not null, createDate date not null, status_id tinyint not null, constraint cst foreign key (customer_id) references customer(id) on delete cascade, constraint stf foreign key (staff_id) references staff(id) on delete cascade, constraint stts foreign key (status_id) references status(id) on delete cascade);'

In [11]:
### 用建立的连接connection_1, 将以上SQL语句写入，在recommend数据库中创建5个空表：
cs = connection_1.cursor()
cs.execute(status)
cs.execute(category)
cs.execute(customer)
cs.execute(staff)
cs.execute(mission)
connection_1.commit()
cs.close()

## 建立空表后，就需要从现存的Excel文件中将数据导入各表。
## 首先可存储的是客户类别信息，即存放客户信息的Excel文件customers.xlsx的表名。

In [12]:
### 从customers.xlsx取得所有表名（列表格式），转为numpy数组后再转为pandas数据表：
categories = pd.ExcelFile("./customers.xlsx").sheet_names
array_categories = np.array(categories)
df_categories = pd.DataFrame(array_categories, columns = ["category"], index = np.arange(1,len(categories)+1))
df_categories.head(5)

Unnamed: 0,category
1,人事-行政-后勤
2,保健按摩
3,保险
4,其他职位
5,农-林-牧-渔业


In [13]:
### 向recommend数据库中新建的空表category中写入df_categories的数据：
df_categories.to_sql("category",connection_2, index = False, if_exists = "append")

## 导入后，用终端或pycharm打开recommend数据库中的category检查一下，确保数据导出成功。
## 接下来，导入员工信息。打开存放员工信息的Excel文件检查一下，只有“销售信息”一张表，因此直接用pandas导入就可以。

In [14]:
### 导入Excel文件staffs.xlsx的数据：
df_staffs = pd.read_excel("./staffs.xlsx", sheet_name = "销售信息")
df_staffs.head(5)

Unnamed: 0,name,account,password
0,张艳,876024831567,b17b1ae95299f365d33f6f28766e34d8
1,李勇,156436662455,cf6088de6b5a5201db2c5d8449efdb15
2,王平,260460121666,67768d6df4fc05b7d74c8b59e17a4ccf
3,李强,775550594765,9b7a25dd2c8b79b8bd9c685d6858b223
4,王芳,965918890050,17e9eba3e021cd4f4412a31dfd1c4f98


In [15]:
### 各列名称和顺序都与数据库中新建的staff表一致，因此直接导出即可：
df_staffs.to_sql("staff",connection_2,index = False, if_exists = "append")

## 惯例检查过后，下一步是导入客户信息。
## 这一步略复杂，因为存放客户信息的Excel文件中有多张表（按类别分）；因此需要引入循环，分别将每张表中的信息转化为子dataframe，然后将所有dataframes做成列表后再拼接。
## 最后，利用已建立的category表中各类别与id的对应关系，将本表中的“类别”转成id, 减少所需的存贮空间。

In [16]:
### 获取客户类别列表，对列表进行遍历，读出customers.xlsx中所有数据表的数据，再拼接起来：
categories = pd.ExcelFile("./customers.xlsx").sheet_names
list_cats = []
for category in categories:
    df_cat = pd.read_excel("./customers.xlsx", sheet_name = category)
    df_cat["category"] = category
    list_cats.append(df_cat)
df_customers = pd.concat(list_cats, axis = 0)
df_customers.head(5)

Unnamed: 0,手机号,category
0,94a20c908ea398cefba903e2d6598ea2,人事-行政-后勤
1,5abd29bae58e80cc2513b9aa0f3dd598,人事-行政-后勤
2,90875eb5b8fc1c84cf9a395f642ac092,人事-行政-后勤
3,05f8673bd351bdb9bf3f503013784da8,人事-行政-后勤
4,f4e507f349ac8455d8426db77c377636,人事-行政-后勤


In [17]:
### 检查一下category列的惟一值，以确保拼接成功：
df_customers["category"].unique()

array(['人事-行政-后勤', '保健按摩', '保险', '其他职位', '农-林-牧-渔业', '制药-生物工程', '化工',
       '医院-医疗-护理', '司机-交通服务', '商超零工', '实习生-培训生-储备干部', '客服', '家政保洁-安保',
       '工厂零工', '市场-媒介-公关', '广告-会展-咨询', '建筑', '影视-娱乐-休闲', '志愿者-社会工作者',
       '快递-餐饮配送', '房产中介', '政府-非营利机构', '教育培训', '旅游', '日结零工', '普工-技工',
       '暑期零工', '服装-纺织-食品', '机械-仪器仪表', '汽车制造-服务', '法律', '淘宝职位', '物业管理',
       '物流-仓储', '环保-能源', '生产管理-研发', '电子-电气', '短期零工', '编辑-出版-印刷', '美容-美发',
       '美术-设计-创意', '翻译', '职业培训', '计算机-互联网-通信', '财务-审计-统计', '质控-安防',
       '贸易-采购', '超市-百货-零售', '运动健身', '酒店', '金融-银行-证券-投资', '销售11', '餐饮',
       '餐饮零工', '高级管理'], dtype=object)

In [21]:
### 从刚才保存的category表中读出"id", "category"两列；
df_categories_id = pd.read_sql("select id, category from category;", connection_2, columns = ["id","category"])
df_categories_id.head()

Unnamed: 0,id,category
0,1,人事-行政-后勤
1,2,保健按摩
2,3,保险
3,4,其他职位
4,5,农-林-牧-渔业


In [22]:
### 将“category”提出来作为索引，然后将读出的内容转化为字典；
df_categories_id.index = df_categories_id["category"]
df_categories_id = df_categories_id.drop(["category"],axis = 1)
dict_categories_id = df_categories_id.to_dict()
dict_categories_id

{'id': {'人事-行政-后勤': 1,
  '保健按摩': 2,
  '保险': 3,
  '其他职位': 4,
  '农-林-牧-渔业': 5,
  '制药-生物工程': 6,
  '化工': 7,
  '医院-医疗-护理': 8,
  '司机-交通服务': 9,
  '商超零工': 10,
  '实习生-培训生-储备干部': 11,
  '客服': 12,
  '家政保洁-安保': 13,
  '工厂零工': 14,
  '市场-媒介-公关': 15,
  '广告-会展-咨询': 16,
  '建筑': 17,
  '影视-娱乐-休闲': 18,
  '志愿者-社会工作者': 19,
  '快递-餐饮配送': 20,
  '房产中介': 21,
  '政府-非营利机构': 22,
  '教育培训': 23,
  '旅游': 24,
  '日结零工': 25,
  '普工-技工': 26,
  '暑期零工': 27,
  '服装-纺织-食品': 28,
  '机械-仪器仪表': 29,
  '汽车制造-服务': 30,
  '法律': 31,
  '淘宝职位': 32,
  '物业管理': 33,
  '物流-仓储': 34,
  '环保-能源': 35,
  '生产管理-研发': 36,
  '电子-电气': 37,
  '短期零工': 38,
  '编辑-出版-印刷': 39,
  '美容-美发': 40,
  '美术-设计-创意': 41,
  '翻译': 42,
  '职业培训': 43,
  '计算机-互联网-通信': 44,
  '财务-审计-统计': 45,
  '质控-安防': 46,
  '贸易-采购': 47,
  '超市-百货-零售': 48,
  '运动健身': 49,
  '酒店': 50,
  '金融-银行-证券-投资': 51,
  '销售11': 52,
  '餐饮': 53,
  '餐饮零工': 54,
  '高级管理': 55}}

In [23]:
### 最后将df_customers中的“category”列转为对应的id：
df_customers["category"] = df_customers["category"].apply(lambda category: dict_categories_id["id"][category])
df_customers.head(5)

Unnamed: 0,手机号,category
0,94a20c908ea398cefba903e2d6598ea2,1
1,5abd29bae58e80cc2513b9aa0f3dd598,1
2,90875eb5b8fc1c84cf9a395f642ac092,1
3,05f8673bd351bdb9bf3f503013784da8,1
4,f4e507f349ac8455d8426db77c377636,1


In [24]:
### 修改df_customers的列名，以便将数据导入recommend数据库中的表格customer: 
df_customers.columns = ["cell","category_id"]
df_customers.head(5)

Unnamed: 0,cell,category_id
0,94a20c908ea398cefba903e2d6598ea2,1
1,5abd29bae58e80cc2513b9aa0f3dd598,1
2,90875eb5b8fc1c84cf9a395f642ac092,1
3,05f8673bd351bdb9bf3f503013784da8,1
4,f4e507f349ac8455d8426db77c377636,1


In [25]:
### 检查一下“category_id”的惟一值：
df_customers.category_id.unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55], dtype=int64)

In [26]:
### 将df_customers的数据导入recommend数据库中的表格customer：
df_customers.to_sql("customer", connection_2, index = False, if_exists = "append")

## 惯例在数据库中检查完导入结果后，下一步：导入任务列表。
## 这是最复杂的一张表，导入pandas前后需要进行如下操作：
### - 添加一列createDate, 数据来源于存储任务信息的Excel文件的各表名（已按日期划分）; 与之前一样，需要引入循环，分别将每张表中的信息转化为子dataframe，然后将所有dataframes做成列表后再拼接。
### - 利用已建立的staff和customer表中员工名/用户手机号与id的对应关系，将本表中的“员工”/“客户”转成对应的id。
### - 提取出任务的状态信息，存入status表中并建立id.
### - 利用新建立的status表中任务状态与id的对应关系，将本表中的“任务状态”转成对应的id.
## 这些步骤都完成后，再进行修改列名，重排各列顺序，最后将数据导出到recommend数据库的mission表中。

In [27]:
### 先按日期将dataframe读出并拼接成df_missions, 同时添加“date”列:
dates = pd.ExcelFile("./missions.xlsx").sheet_names
list_dates = []
for date in dates:
    df_date = pd.read_excel("./missions.xlsx", sheet_name = date)
    df_date["date"] = date
    list_dates.append(df_date)
df_missions = pd.concat(list_dates, axis = 0)
df_missions.head(5)

Unnamed: 0,手机号,销售姓名,沟通结果,date
0,04875e81bd8363d57a45023dfe0f6fad,刘洋,继续跟单,2020-06-01
1,664ce871652fc5000537372196d303e1,刘洋,非意向用户,2020-06-01
2,c10304ba5e13f140c15d9ca2356abec2,刘洋,非意向用户,2020-06-01
3,5ba2bc25041f5a246e8fcbd070afb47d,刘洋,继续跟单,2020-06-01
4,fa5dfbe3e3b7bdb1fefe8c2498204d49,刘洋,非意向用户,2020-06-01


In [29]:
### 检查一下“dates”的惟一值：
df_missions.date.unique()

array(['2020-06-01', '2020-06-02', '2020-06-03', '2020-06-04',
       '2020-06-05', '2020-06-06', '2020-06-07', '2020-06-08',
       '2020-06-09', '2020-06-10', '2020-06-11', '2020-06-12',
       '2020-06-13', '2020-06-14', '2020-06-15', '2020-06-16',
       '2020-06-17', '2020-06-18', '2020-06-19', '2020-06-20',
       '2020-06-21', '2020-06-22', '2020-06-23', '2020-06-24',
       '2020-06-25', '2020-06-26', '2020-06-27', '2020-06-28',
       '2020-06-29', '2020-06-30'], dtype=object)

In [30]:
### 从刚才保存的customer表中读出"id", "cell"两列；
df_customers_id = pd.read_sql("select id, cell from customer;", connection_2, columns = ["id","cell"])
df_customers_id.head()

Unnamed: 0,id,cell
0,1,94a20c908ea398cefba903e2d6598ea2
1,2,5abd29bae58e80cc2513b9aa0f3dd598
2,3,90875eb5b8fc1c84cf9a395f642ac092
3,4,05f8673bd351bdb9bf3f503013784da8
4,5,f4e507f349ac8455d8426db77c377636


In [31]:
### 将“cell”提出来作为索引，然后将读出的内容转化为字典；
df_customers_id.index = df_customers_id["cell"]
df_customers_id = df_customers_id.drop(["cell"],axis = 1)
dict_customers_id = df_customers_id.to_dict()
dict_customers_id

{'id': {'94a20c908ea398cefba903e2d6598ea2': 1,
  '5abd29bae58e80cc2513b9aa0f3dd598': 2,
  '90875eb5b8fc1c84cf9a395f642ac092': 3,
  '05f8673bd351bdb9bf3f503013784da8': 4,
  'f4e507f349ac8455d8426db77c377636': 5,
  'de39298ba26941840e146386726712c3': 6,
  '12d00e1f9372b2efb29413be3be299ae': 7,
  'c0c82178f974fa1ed40e60c9ae72b8eb': 8,
  'f2a89aedd5b57b3656459fc913432d24': 9,
  '6db2e0ef79bd4b1461c244428e467997': 10,
  '06206c7115f9fee591cb51fcc0060079': 11,
  '525f7fb91c497be839eba16fe588ab5c': 12,
  'e748dc95fd8e241f07d7774f9dd0b9b9': 13,
  '61ceab2e2c8357806303e532f3e99c64': 14,
  '4af05ac2132a43a34b94ffebe1eeff06': 15,
  'd34bf83271c49c6a218977e5efce357d': 16,
  '763b3a2140685ae8105a89428f5ebb85': 17,
  '6baaeb59f010aa7371756bffe5133f8c': 18,
  'd5ccaf283ec841184c4a815483e1d660': 19,
  'b2f9650bd5ffc1159fdf8c6aa4f720bb': 20,
  'c7a981b684d178e0339b09df42c9947f': 21,
  '623ef9f449bf880caf5e485c7e0b3dd7': 22,
  '8cb245b651c1925be27f07808ebe02e7': 23,
  'cb7b354d1088c3c4c6ff490d2ab649f7':

In [32]:
### 最后将df_missions中的“手机号”列转为对应的id：
df_missions["手机号"] = df_missions["手机号"].apply(lambda cell: dict_customers_id["id"][cell])
df_missions.head()

Unnamed: 0,手机号,销售姓名,沟通结果,date
0,7409,刘洋,继续跟单,2020-06-01
1,19304,刘洋,非意向用户,2020-06-01
2,27643,刘洋,非意向用户,2020-06-01
3,10895,刘洋,继续跟单,2020-06-01
4,3678,刘洋,非意向用户,2020-06-01


In [33]:
### 从刚才保存的staff表中读出"id", "name"两列；
df_staff_id = pd.read_sql("select id, name from staff;", connection_2, columns = ["id","name"])
df_staff_id.head()

Unnamed: 0,id,name
0,1,张艳
1,2,李勇
2,3,王平
3,4,李强
4,5,王芳


In [34]:
### 将“name”提出来作为索引，然后将读出的内容转化为字典；
df_staff_id.index = df_staff_id["name"]
df_staff_id = df_staff_id.drop(["name"],axis = 1)
dict_staff_id = df_staff_id.to_dict()
dict_staff_id

{'id': {'张艳': 1,
  '李勇': 2,
  '王平': 3,
  '李强': 4,
  '王芳': 5,
  '王军': 6,
  '李伟': 7,
  '刘洋': 8,
  '张勇': 9,
  '王勇': 10,
  '张秀英': 11,
  '王强': 12,
  '李军': 13,
  '王娟': 14,
  '张涛': 15,
  '刘芳': 16,
  '张杰': 17,
  '张静': 18,
  '王丽': 19,
  '王艳': 20,
  '张磊': 21,
  '王超': 22,
  '王杰': 23,
  '张丽': 24,
  '李静': 25,
  '王敏': 26,
  '王伟': 27,
  '王秀兰': 28,
  '李敏': 29,
  '张敏': 30}}

In [35]:
### 最后将df_missions中的“销售姓名”列转为对应的id：
df_missions["销售姓名"] = df_missions["销售姓名"].apply(lambda staff: dict_staff_id["id"][staff])
df_missions.head()

Unnamed: 0,手机号,销售姓名,沟通结果,date
0,7409,8,继续跟单,2020-06-01
1,19304,8,非意向用户,2020-06-01
2,27643,8,非意向用户,2020-06-01
3,10895,8,继续跟单,2020-06-01
4,3678,8,非意向用户,2020-06-01


In [36]:
### 取出“沟通结果”的惟一值，将其转成dataframe：
array_status = df_missions["沟通结果"].unique()
df_status = pd.DataFrame(array_status, columns = ["status"])
df_status

Unnamed: 0,status
0,继续跟单
1,非意向用户
2,直接签单成功
3,跟单失败
4,跟单成功
5,跟踪超时


In [37]:
### 将上述结果转出到recommend数据库的status表中：
df_status.to_sql("status", connection_2, index = False, if_exists = "append")

In [38]:
### 重新读出"id"和“status”两列：
df_status_id = pd.read_sql("select id, status from status;", connection_2, columns = ["id","status"])
df_status_id

Unnamed: 0,id,status
0,1,继续跟单
1,2,非意向用户
2,3,直接签单成功
3,4,跟单失败
4,5,跟单成功
5,6,跟踪超时


In [39]:
### 将“status”提出来作为索引，然后将读出的内容转化为字典；
df_status_id.index = df_status_id["status"]
df_status_id = df_status_id.drop(["status"],axis = 1)
dict_status_id = df_status_id.to_dict()
dict_status_id

{'id': {'继续跟单': 1, '非意向用户': 2, '直接签单成功': 3, '跟单失败': 4, '跟单成功': 5, '跟踪超时': 6}}

In [40]:
### 最后将df_missions中的“沟通结果”列转为对应的id：
df_missions["沟通结果"] = df_missions["沟通结果"].apply(lambda status: dict_status_id["id"][status])
df_missions.head()

Unnamed: 0,手机号,销售姓名,沟通结果,date
0,7409,8,1,2020-06-01
1,19304,8,2,2020-06-01
2,27643,8,2,2020-06-01
3,10895,8,1,2020-06-01
4,3678,8,2,2020-06-01


In [41]:
### 检查一下上表“status”的惟一值：
df_missions["沟通结果"].unique()

array([1, 2, 3, 4, 5, 6], dtype=int64)

In [42]:
### 重新命名各列：
df_missions.columns = ["customer_id","staff_id","status_id","createDate"]
df_missions.head()

Unnamed: 0,customer_id,staff_id,status_id,createDate
0,7409,8,1,2020-06-01
1,19304,8,2,2020-06-01
2,27643,8,2,2020-06-01
3,10895,8,1,2020-06-01
4,3678,8,2,2020-06-01


In [43]:
### 重排各列顺序：
order = ["customer_id","staff_id","createDate","status_id"]
df_missions = df_missions[order]
df_missions.head()

Unnamed: 0,customer_id,staff_id,createDate,status_id
0,7409,8,2020-06-01,1
1,19304,8,2020-06-01,2
2,27643,8,2020-06-01,2
3,10895,8,2020-06-01,1
4,3678,8,2020-06-01,2


In [44]:
### 将df_missions的数据导出到数据库：
df_missions.to_sql("mission",connection_2, index = False, if_exists = "append")

## 到这里，recommend数据库的构建，表的建立和数据导入就完成了。
## 后续在终端中用mysqldump命令将该库导出为.sql文件即可，命令为："mysqldum -uroot -p recommend > recommend.sql". 