**项目背景**<br>
物流寄递业是在传统运输业和邮寄业务的基础上伴随信息产业发展起来的一个新兴行业，在促进经济发展、方便社会交流、扩大就业等方面发挥了积极作用，但是疫情期间，各地相继出台并严格执行关于停工、限制物流与人员流动等疫情防控政策，严防快递物流引发输入疫情，民众应减少网购或代购境外商品，暂缓从近14天有本土疫情的省份网购商品，现有某时间段内物流数据，要求结合相关防疫机制进行分析并给出结果。<br>

**数据说明**<br>
文件：logistics.csv
```
运单编号,货运公司名称,货物名称,货物数量,货物重量,始发站：省,始发站：市,始发站：区/县,发货客户名称,发货客户手机,发货客户电话,发货客户地址（寄件地址）,发货时间,目的站：省,目的站：市,目的站：区/县,收货客户名称,收货客户手机,收货客户电话,收货客户地址（收件地址）,货物类型
903853006100,中通速递,,0,0,山西省,运城市,盐湖区,肖*辉,171****5263,171****5263,工农东街3***,2019-4-14,湖北省,襄阳市,襄州区,何*,135****5888,135****5888,光彩大市场8栋3***,无
```

In [1]:
# 导库
import numpy as np
import pandas as pd

In [2]:
# 读取数据
data = pd.read_csv('logistics.csv')
data.head(1)

Unnamed: 0,运单编号,货运公司名称,货物名称,货物数量,货物重量,始发站：省,始发站：市,始发站：区/县,发货客户名称,发货客户手机,...,发货客户地址（寄件地址）,发货时间,目的站：省,目的站：市,目的站：区/县,收货客户名称,收货客户手机,收货客户电话,收货客户地址（收件地址）,货物类型
0,903853006100,中通速递,,0,0.0,山西省,运城市,盐湖区,肖*辉,171****5263,...,工农东街3***,2019-4-14,湖北省,襄阳市,襄州区,何*,135****5888,135****5888,光彩大市场8栋3***,无


#### 1.对全量数据中各货运公司运单数统计
思路：直接查看不同公司的数量即可

In [3]:
df1 = data['货运公司名称'].value_counts() #直接对货运公司的名称做统计(示例： 天天速递 25)
df1

德邦物流        4472
顺丰快递        4396
中通速递        2908
百世汇通         146
圆通速递         132
天天速递          25
韵达快递           9
申通快递有限公司       8
盛辉物流           4
佳吉快运有限公司       4
品骏             2
Name: 货运公司名称, dtype: int64

#### 2.接通知对寄往北京的快递案件全面升级，对数据中目的站为“北京市”的运单进行分析，统计对应的始发站（省）及各省运单数
思路：先按目的地为“北京“筛选，在此基础上查看不同始发站的数量

In [4]:
#先找出目的地北京的
df2 = data[data['目的站：省'] == '北京市']
df2

Unnamed: 0,运单编号,货运公司名称,货物名称,货物数量,货物重量,始发站：省,始发站：市,始发站：区/县,发货客户名称,发货客户手机,...,发货客户地址（寄件地址）,发货时间,目的站：省,目的站：市,目的站：区/县,收货客户名称,收货客户手机,收货客户电话,收货客户地址（收件地址）,货物类型
1,408435480333,中通速递,,0,0.0,北京市,北京市,房山区,E*o,136****1819,...,长阳镇清雅小区***,2018-12-5,北京市,北京市,顺义区,刘*,138****2494,138****2494,北务镇顺义区北务镇府前街5号（四方达***,无
2,402177236837,中通速递,,0,0.0,北京市,北京市,房山区,E*o,136****1819,...,长阳镇清雅小区***,2019-1-16,北京市,北京市,西城区,刘*,135****3760,135****3760,什刹海街道北京市西城区后海西***,无
11,402840539188,中通速递,,0,0.0,北京市,北京市,房山区,E*o,136****1819,...,长阳镇清雅小区***,2019-1-19,北京市,北京市,朝阳区,路*,138****4660,138****4660,太阳宫镇太阳宫 路半岛国际底商芝麻***,无
12,402588077205,中通速递,,0,0.0,北京市,北京市,房山区,E*o,136****1819,...,长阳镇清雅小区***,2018-12-27,北京市,北京市,海淀区,张*,139****6924,139****6924,海淀街道中关村苏州街29号 维亚大厦南创新社孵化器古***,无
18,406693559189,中通速递,,0,0.0,北京市,北京市,房山区,E*o,136****1819,...,长阳镇清雅小区***,2018-5-25,北京市,北京市,海淀区,李*航,138****9677,138****9677,曙光街道世纪城春荫园10号楼1单***,无
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11976,4483894372,德邦物流,印刷品,1,28.4,浙江省,温州市,苍南县,吴*姐,150****0033,...,,2018-10-12,北京市,北京市,朝阳区,班*佳,138****2872,138****2872,,纸类
11994,1587293816,德邦物流,印刷品,1,13.4,浙江省,温州市,苍南县,邓*鹿,183****5057,...,,2020-1-9,北京市,北京市,朝阳区,李*宇,135****2140,135****2140,,纸类
12064,4475003543,德邦物流,印刷品,1,26.4,浙江省,温州市,苍南县,吴*姐,150****0033,...,,2018-12-1,北京市,北京市,大兴区,叶*,151****8841,151****8841,,纸类
12066,4658807540,德邦物流,印刷品,1,18.0,浙江省,温州市,苍南县,吴*姐,150****0033,...,,2018-6-11,北京市,北京市,大兴区,蒋*,133****1003,133****1003,,纸类


In [5]:
#然后对始发站（省）进行数值统计 (示例： 山西省 1)
df2['始发站：省'].value_counts()

北京市    487
浙江省    364
广东省     18
河北省     17
山东省      8
湖北省      4
江苏省      3
河南省      2
福建省      2
陕西省      2
云南省      2
天津市      2
辽宁省      2
湖南省      2
四川省      2
安徽省      2
上海市      2
山西省      1
Name: 始发站：省, dtype: int64

#### 3.自2019年底新冠疫情以来，防控形势严峻复杂，物流传播风险加大，根据西value_counts疫情以来（2019年12月及以后）本市始发物流进行监管
思路：先按时间筛选出2019年12月1日及以后的数据，在此基础上再筛选出始发为西安的数据（这两步顺序任意），最后再选取重要信息列。<br>
数据要求：运单编号 货运公司名称 发货客户名称 发货客户手机 收货客户地址(收件地址)<br>
保存文件：03.txt(同目录下，下同)

In [6]:
#查看数据类型
data.dtypes

运单编号             object
货运公司名称           object
货物名称             object
货物数量              int64
货物重量            float64
始发站：省            object
始发站：市            object
始发站：区/县          object
发货客户名称           object
发货客户手机           object
发货客户电话           object
发货客户地址（寄件地址）     object
发货时间             object
目的站：省            object
目的站：市            object
目的站：区/县          object
收货客户名称           object
收货客户手机           object
收货客户电话           object
收货客户地址（收件地址）     object
货物类型             object
dtype: object

In [7]:
#将发货时间改为时间类型
data['发货时间'] = pd.to_datetime(data['发货时间'],errors='coerce')

#筛选发货时间2019-12-01及以后的数据
df3 = data[data['发货时间']>='2019-12-01']
df3.head()

Unnamed: 0,运单编号,货运公司名称,货物名称,货物数量,货物重量,始发站：省,始发站：市,始发站：区/县,发货客户名称,发货客户手机,...,发货客户地址（寄件地址）,发货时间,目的站：省,目的站：市,目的站：区/县,收货客户名称,收货客户手机,收货客户电话,收货客户地址（收件地址）,货物类型
26,568182802646,顺丰快递,日用品###面膜;,1,1.0,云南省,文山壮族苗族自治州,0,张*洪,182****3631,...,云南省文山壮族苗族自治州文山市经***,2019-12-17,湖北省,武汉市,0,周*,178****1128,178****1128,湖北省武汉市武昌区徐东大街***,纸类
39,10351361807358,中通速递,,0,0.0,河北省,保定市,莲池区,刘*鹏,182****1487,...,玉***,2019-12-06,四川省,达,万源市,王*姐,153****3390,153****3390,庙沟路隆發药行***,无
41,664586359512,顺丰快递,主板;,1,1.0,山东省,枣庄市,0,刘*涛,138****7504,...,山东省枣庄市滕州市滕州圣宇玉米开***,2019-12-14,广东省,汕头市,0,程*华,186****7976,186****7976,广东省汕头市潮阳区铜孟镇市上村深港家***,无
53,10335444328166,中通速递,食品,0,0.0,山东省,烟台市,芝罘区,李*钢,189****4010,...,***,2020-03-15,陕西省,铜川市,耀州区,张*,136****2838,136****2838,耀州路快递***,冷藏产品
54,568182873353,顺丰快递,日用品###面膜;,1,1.0,云南省,文山壮族苗族自治州,0,张*洪,182****3631,...,云南省文山壮族苗族自治州文山市经***,2019-12-11,广东省,深圳市,0,马*杰,137****5747,137****5747,广东省深圳市宝安区金叶名***,纸类


In [8]:
#筛选始发站为西安
df3 = df3[data['始发站：市'] == '西安市']
df3.head()

  df3 = df3[data['始发站：市'] == '西安市']


Unnamed: 0,运单编号,货运公司名称,货物名称,货物数量,货物重量,始发站：省,始发站：市,始发站：区/县,发货客户名称,发货客户手机,...,发货客户地址（寄件地址）,发货时间,目的站：省,目的站：市,目的站：区/县,收货客户名称,收货客户手机,收货客户电话,收货客户地址（收件地址）,货物类型
376,669284235237,顺丰快递,充电器;,1,1.0,陕西省,西安市,0,田*房,132****1787,...,陕西省咸阳市兴平市南关西路西段中国邮政储蓄银行南关西***,2020-01-25,陕西省,汉中市,0,苏*,138****6543,138****6543,陕西省汉中市宁强县汉源街道汉源镇上关街校场坝桥头移动收费厅724***,无
594,799666713712,顺丰快递,药品;,1,3.0,陕西省,西安市,0,田*露,680****2335,...,陕西省西安市雁塔区沣惠南路与科技二路十字西南角泰华金***,2019-12-11,陕西省,西安市,0,杨*,135****5071,135****5071,陕西省咸阳市泾阳县永乐镇美国科技产业***,无
1656,835511329921,顺丰快递,文件;,1,1.0,陕西省,西安市,0,赵*玺,151****2541,...,陕西省西安市长安区凤西西***,2019-12-26,陕西省,西安市,0,王*勇,180****2555,180****2555,陕西省西安市新城区华清东路星辰***,纸类
2067,833810170073,顺丰快递,衣物;,1,1.0,陕西省,西安市,0,李*媛,183****3931,...,陕西省西安市未央区凤城十二路首创曼香郡50号楼一单元22楼2***,2019-12-15,陕西省,西安市,0,杨*,135****5071,135****5071,陕西省咸阳市泾阳县永乐镇美国科技产业园北区西大***,无
2316,43085445451462,百世汇通,,0,0.0,陕西省,西安市,雁塔区,田*露,680****2335,...,沣惠南路泰华金贸国际***,2020-01-05,陕西省,咸阳市,泾阳县,杨*,135****5071,135****5071,永乐镇美国科技产业园北区西大***,无


In [9]:
#选择重要信息列
df3=df3[['运单编号','货运公司名称','发货客户名称','发货客户手机','收货客户地址（收件地址）', '发货时间']]
df3

Unnamed: 0,运单编号,货运公司名称,发货客户名称,发货客户手机,收货客户地址（收件地址）,发货时间
376,669284235237,顺丰快递,田*房,132****1787,陕西省汉中市宁强县汉源街道汉源镇上关街校场坝桥头移动收费厅724***,2020-01-25
594,799666713712,顺丰快递,田*露,680****2335,陕西省咸阳市泾阳县永乐镇美国科技产业***,2019-12-11
1656,835511329921,顺丰快递,赵*玺,151****2541,陕西省西安市新城区华清东路星辰***,2019-12-26
2067,833810170073,顺丰快递,李*媛,183****3931,陕西省咸阳市泾阳县永乐镇美国科技产业园北区西大***,2019-12-15
2316,43085445451462,百世汇通,田*露,680****2335,永乐镇美国科技产业园北区西大***,2020-01-05
2461,835582189341,顺丰快递,康*粉,181****6015,陕西省咸阳市泾阳县永乐镇，美国科技产业园北区西大新***,2019-12-23
3370,669217440034,顺丰快递,孙*驰,153****1018,陕西省咸阳市泾阳县永乐镇美国科技产业园康***,2020-01-16
3452,663291755981,顺丰快递,王*姐,136****4474,陕西省咸阳市泾阳县永乐镇美国科技产业园北区西大***,2020-01-18
4062,835124290869,顺丰快递,陈*科,177****0618,青海省西宁市城中区南大街体育巷4号4***,2020-01-16
4064,833845315976,顺丰快递,赵*茹,138****6301,陕西省西安市碑林区城南南稍门十字东南角永***,2019-12-14


In [10]:
#保存文件
df3.to_csv('03.txt',sep=',',encoding='utf-8',index=False) #pandas直接存为txt

#### 4.接防疫通知，人员“付*君”于2019/12/18筛查核酸阳性，结合上题物流信息，对其阳性当天前后7天内的物流进行追踪，将对应收货人作为重点监控人员
思路：筛选人员“付 * 君”的数据，在此基础上计算“付 * 君”发快递时间与“2019/12/18”的时间差，选取时间差绝对值小于等于7的部分，进而追踪对应的收货人。<br>
数据要求：发货时间 收货客户名称 收货客户手机 收货客户地址（收件地址）<br>
保存文件：04.txt

In [11]:
#在西安的数据中查找付*君
df4 = df3[df3['发货客户名称'] == '付*君']
df4.head()

Unnamed: 0,运单编号,货运公司名称,发货客户名称,发货客户手机,收货客户地址（收件地址）,发货时间
6168,608240228851,顺丰快递,付*君,186****7946,陕西省西安市雁塔区光华路导***,2019-12-17
6393,663291426537,顺丰快递,付*君,186****7946,陕西省西安市未央区学府中路2号西安工***,2020-01-14
6884,691537555599,顺丰快递,付*君,186****7946,陕西省宝鸡市渭滨区石鼓镇党家村龙山***,2019-12-13
7604,608240228460,顺丰快递,付*君,186****7946,陕西省宝鸡市渭滨区石鼓镇党家村龙山***,2019-12-18
8757,608240219647,顺丰快递,付*君,186****7946,陕西省宝鸡市眉县汤峪镇太白山风景区农夫山泉太***,2019-12-24


In [12]:
#计算发货时间和'2019-12-18'的时间差 <= 7
#展示重要信息列
#保存文件
df4 = df3.loc[(df3.loc[:, '发货客户名称'] == '付*君') & (np.abs((df3.loc[:,'发货时间'] - pd.to_datetime('2019-12-18')).dt.days) <= 7), ['运单编号','货运公司名称','发货客户名称','发货客户手机','收货客户地址（收件地址）', '发货时间']]
df4.to_csv('04.txt',sep=',',encoding='utf-8',index=False) #pandas直接存为txt
df4.head()

Unnamed: 0,运单编号,货运公司名称,发货客户名称,发货客户手机,收货客户地址（收件地址）,发货时间
6168,608240228851,顺丰快递,付*君,186****7946,陕西省西安市雁塔区光华路导***,2019-12-17
6884,691537555599,顺丰快递,付*君,186****7946,陕西省宝鸡市渭滨区石鼓镇党家村龙山***,2019-12-13
7604,608240228460,顺丰快递,付*君,186****7946,陕西省宝鸡市渭滨区石鼓镇党家村龙山***,2019-12-18
8757,608240219647,顺丰快递,付*君,186****7946,陕西省宝鸡市眉县汤峪镇太白山风景区农夫山泉太***,2019-12-24


#### 5.为加强冷链食品疫情防控，对冷藏产品进行重点追踪
思路：直接筛选货物类型为“冷藏产品”的数据<br>
数据要求：运单编号 货运公司名称 始发站：省 始发站：市 发货客户名称 发货客户手机 货物类型<br>
保存文件：05.txt

In [13]:
df5 = data[data['货物类型']=='冷藏产品']
df5 = df5[['运单编号','货运公司名称','始发站：省','始发站：市', '发货客户名称','发货客户手机','货物类型', '收货客户地址（收件地址）']]
df5.to_csv('05.txt',sep=',',encoding='utf-8',index=False) #pandas直接存为txt
df5.head()

Unnamed: 0,运单编号,货运公司名称,始发站：省,始发站：市,发货客户名称,发货客户手机,货物类型,收货客户地址（收件地址）
53,10335444328166,中通速递,山东省,烟台市,李*钢,189****4010,冷藏产品,耀州路快递***
881,13055555555555,百世汇通,上海市,上海市,赵*力,137****7027,冷藏产品,天宝路街道柳公***
6585,850505556350,顺丰快递,湖北省,武汉市,张*恒,137****1681,冷藏产品,浙江省杭州市西湖区留下街道留和路**工业大学***


#### 6.结合联防联控机制组文件，严守冷链输入风险，筑牢校园食品安全，各地区要求冷藏产品禁止进入校园，查找疑似“冷藏产品”进入校园的物流信息
思路：先筛选所有冷藏产品数据，然后检查冷藏产品的收货客户地址中是否含有“学校”、“大学”、“校区”等相关词。<br>
数据要求：运单编号 货运公司名称 收货客户名称 收货客户手机 收货客户地址（收件地址） <br>
保存文件：06.txt

In [14]:
df6 = df5.loc[df5.loc[:,'收货客户地址（收件地址）'].str.contains('学校|大学|校区')]
df6 = df6[['运单编号','货运公司名称','发货客户名称','发货客户手机','收货客户地址（收件地址）']]
df6.to_csv('06.txt',sep=',',encoding='utf-8',index=False) #pandas直接存为txt
df6.head()

Unnamed: 0,运单编号,货运公司名称,发货客户名称,发货客户手机,收货客户地址（收件地址）
6585,850505556350,顺丰快递,张*恒,137****1681,浙江省杭州市西湖区留下街道留和路**工业大学***


#### 7.对以往病例溯源中，发现部分病例曾接触境外快递，因此需要对数据中海外包裹进行重点追踪
思路：直接筛选海外发货数据<br>
数据要求：运单编号 货运公司名称 始发站：省 收货客户名称 收货客户手机 收货客户地址（收件地址） <br>
保存文件：07.txt

In [15]:
df7 = data[data['始发站：省']=='海外']
df7 = df7[['运单编号','货运公司名称','始发站：省', '收货客户名称','收货客户手机','收货客户地址（收件地址）']]
df7.to_csv('07.txt',sep=',',encoding='utf-8',index=False) #pandas直接存为txt
df7.head()

Unnamed: 0,运单编号,货运公司名称,始发站：省,收货客户名称,收货客户手机,收货客户地址（收件地址）
1828,643799309327,中通速递,海外,杨*,135****5071,陕西省^^^西安市^^^长安区^^^ 雁塔南路航天段128号曲江澜***
