# 学生校园消费行为数据清洗预处理

将data1.csv、data2.csv、data3.csv三份文件加载到分析环境当中，理解字段含义，探究数据质量并进行缺失值和异常值等方面的必要处理。将处理结果返回保存为task1_1_X.csv，并在报告中处理描述处理过程

In [1]:
import pandas as pd
import numpy as np

### 表data1读取处理·

In [2]:
data1=pd.read_csv("data1.csv",encoding="gbk")
data1.head()

Unnamed: 0,Index,CardNo,Sex,Major,AccessCardNo
0,1,180001,男,18国际金融,19762330
1,2,180002,男,18国际金融,20521594
2,3,180003,男,18国际金融,20513946
3,4,180004,男,18国际金融,20018058
4,5,180005,男,18国际金融,20945770


In [3]:
#列重命名方便理解处理
data1.columns=['序号','校园卡号','性别','专业名称','门禁卡号']

In [4]:
data1.shape

(4341, 5)

In [5]:
data1.dtypes

序号       int64
校园卡号     int64
性别      object
专业名称    object
门禁卡号     int64
dtype: object

In [6]:
data1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4341 entries, 0 to 4340
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   序号      4341 non-null   int64 
 1   校园卡号    4341 non-null   int64 
 2   性别      4341 non-null   object
 3   专业名称    4341 non-null   object
 4   门禁卡号    4341 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 169.7+ KB


In [7]:
#检查每列的缺失值比例
data1.apply(lambda x:sum(x.isnull())/len(x),axis=0)

序号      0.0
校园卡号    0.0
性别      0.0
专业名称    0.0
门禁卡号    0.0
dtype: float64

无缺失值，查看是否有异常值

In [8]:
data1["性别"].unique()

array(['男', '女'], dtype=object)

In [9]:
data1.describe()

Unnamed: 0,序号,校园卡号,门禁卡号
count,4341.0,4341.0,4341.0
mean,2171.0,182161.785533,16797000.0
std,1253.283089,1309.570383,6891622.0
min,1.0,164340.0,30778.0
25%,1086.0,181084.0,17304120.0
50%,2171.0,182169.0,19448470.0
75%,3256.0,183254.0,20747420.0
max,4341.0,184339.0,25450700.0


数字字段都是卡号没有意义探究

数据很干净，进行文件存储

In [10]:
data1.to_csv("task1_1_1.csv",index=False,encoding='gbk')

### 表data2.csv读取处理

In [11]:
data2=pd.read_csv("data2.csv",encoding='gbk')
data2.head()

Unnamed: 0,Index,CardNo,PeoNo,Date,Money,FundMoney,Surplus,CardCount,Type,TermNo,TermSerNo,conOperNo,OperNo,Dept
0,117342773,181316,20181316,2019/4/20 20:17,3.0,0.0,186.1,818,消费,49,,,235,第一食堂
1,117344766,181316,20181316,2019/4/20 8:47,0.5,0.0,199.5,814,消费,63,,,27,第二食堂
2,117346258,181316,20181316,2019/4/22 7:27,0.5,0.0,183.1,820,消费,63,,,27,第二食堂
3,117308066,181317,20181317,2019/4/21 7:46,3.5,0.0,50.2,211,消费,196,,,133,好利来食品店
4,117309001,181317,20181317,2019/4/19 22:31,2.5,0.0,61.7,209,消费,146,,,48,好利来食品店


In [12]:
#列重命名
data2.columns=["流水号","校园卡号","校园卡编号","消费时间","消费金额","存储金额","余额","消费次数","消费类型","消费项目编码",
               "消费项目序列号","消费操作编码","操作编码","消费地点"]

In [13]:
data2.shape

(519367, 14)

In [14]:
data2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 519367 entries, 0 to 519366
Data columns (total 14 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   流水号      519367 non-null  int64  
 1   校园卡号     519367 non-null  int64  
 2   校园卡编号    519367 non-null  int64  
 3   消费时间     519367 non-null  object 
 4   消费金额     519367 non-null  float64
 5   存储金额     519367 non-null  float64
 6   余额       519367 non-null  float64
 7   消费次数     519367 non-null  int64  
 8   消费类型     519367 non-null  object 
 9   消费项目编码   519367 non-null  int64  
 10  消费项目序列号  7261 non-null    object 
 11  消费操作编码   251 non-null     float64
 12  操作编码     519367 non-null  int64  
 13  消费地点     519367 non-null  object 
dtypes: float64(4), int64(6), object(4)
memory usage: 55.5+ MB


消费操作编码和消费项目序列号有明显的空行

In [15]:
data2.head(3)

Unnamed: 0,流水号,校园卡号,校园卡编号,消费时间,消费金额,存储金额,余额,消费次数,消费类型,消费项目编码,消费项目序列号,消费操作编码,操作编码,消费地点
0,117342773,181316,20181316,2019/4/20 20:17,3.0,0.0,186.1,818,消费,49,,,235,第一食堂
1,117344766,181316,20181316,2019/4/20 8:47,0.5,0.0,199.5,814,消费,63,,,27,第二食堂
2,117346258,181316,20181316,2019/4/22 7:27,0.5,0.0,183.1,820,消费,63,,,27,第二食堂


In [16]:
#对消费时间进行处理
data2.loc[:, '消费时间'] = pd.to_datetime(data2.loc[:, "消费时间"], format="%Y/%m/%d %H:%M", errors='coerce')
data2.head(3)["消费时间"]

0    2019-04-20 20:17:00
1    2019-04-20 08:47:00
2    2019-04-22 07:27:00
Name: 消费时间, dtype: object

In [17]:
#检查每列的缺失值占比
data2.apply(lambda x:sum(x.isnull())/len(x)*100,axis=0)

流水号         0.000000
校园卡号        0.000000
校园卡编号       0.000000
消费时间        0.000000
消费金额        0.000000
存储金额        0.000000
余额          0.000000
消费次数        0.000000
消费类型        0.000000
消费项目编码      0.000000
消费项目序列号    98.601952
消费操作编码     99.951672
操作编码        0.000000
消费地点        0.000000
dtype: float64

In [18]:
#因为消费项目序列号和消费操作编码缺失值太高，且作用也不大，所以删掉这两列，不进入后续的分析
data2=data2[["流水号","校园卡号","校园卡编号","消费时间","消费金额","存储金额","余额","消费次数","消费类型","消费项目编码","操作编码","消费地点"]]

In [19]:
data2.columns

Index(['流水号', '校园卡号', '校园卡编号', '消费时间', '消费金额', '存储金额', '余额', '消费次数', '消费类型',
       '消费项目编码', '操作编码', '消费地点'],
      dtype='object')

In [20]:
#统计各消费地点出现的次数
data2["消费地点"].value_counts(dropna=False)

消费地点
第二食堂      154873
第五食堂      117615
第一食堂       62090
第四食堂       60841
第三食堂       52103
好利来食品店     31781
财务处        18295
红太阳超市      12942
水电缴费处       3388
教师食堂        2145
医务室          794
第二图书馆        376
第一图书馆        291
工商系部         197
自然科学书库       195
财务部          170
第七教学楼        165
基础课部         133
艺术设计学院       131
第六教学楼        130
人文社科         109
第二教学楼         99
第五教学楼         99
飞凤轩宿管办        86
机电系           78
第四教学楼         56
第三教学楼         52
宿管办           47
青鸾苑宿管办        25
财经系           23
第一教学楼         23
外语系           12
旅游系            3
Name: count, dtype: int64

In [21]:
#对数值金额进行统计观察分析
data2[["消费金额","存储金额","余额","消费次数"]].describe()

Unnamed: 0,消费金额,存储金额,余额,消费次数
count,519367.0,519367.0,519367.0,519367.0
mean,4.087279,3.949758,78.495517,1016.565421
std,8.900284,34.329017,121.537938,812.625096
min,0.0,0.0,0.0,1.0
25%,1.2,0.0,34.1,504.0
50%,3.0,0.0,64.5,749.0
75%,6.0,0.0,99.39,1422.0
max,900.0,9800.0,9903.61,14575.0


消费金额的最大值远超75%分位，可能存在异常高消费的情况

存储金额的标准差较大，表明数据很分散，最大值可能存在极端的存储金额，有可能是异常值

余额也是同存储金额，较分散，肯存在异常的高余额

消费次数特别分散，最大值也存在异常

但是还是先保留，不排除有极端的学生消费存在

In [22]:
#存入文件
data2.to_csv("task1_1_2.csv",index=False,encoding='gbk')

### 表data3.csv读取处理

In [23]:
#读取
data3=pd.read_csv("data3.csv",encoding='gbk')
data3.head()

Unnamed: 0,Index,AccessCardNo,Date,Address,Access,Describe
0,1330906,25558880,2019/4/1 0:00,第六教学楼[进门],1,允许通过
1,1330907,18413143,2019/4/1 0:02,第六教学楼[出门],1,允许通过
2,1331384,11642752,2019/4/1 0:00,飞凤轩[进门],1,允许通过
3,1330908,24124155,2019/4/1 0:00,第六教学楼[出门],1,允许通过
4,1331385,18629328,2019/4/1 0:11,飞凤轩[进门],1,允许通过


In [24]:
data3.shape

(43156, 6)

In [25]:
#重命名列名
data3.columns=['序号',"门禁卡号","进出时间","进出地点","是否通过","描述通过"]

In [26]:
data3.dtypes

序号       int64
门禁卡号     int64
进出时间    object
进出地点    object
是否通过     int64
描述通过    object
dtype: object

In [27]:
#对时间格式进行调整
data3.loc[:, '进出时间'] = pd.to_datetime(data3.loc[:, '进出时间'], format="%Y/%m/%d %H:%M", errors='coerce')
data3.head()['进出时间']

0    2019-04-01 00:00:00
1    2019-04-01 00:02:00
2    2019-04-01 00:00:00
3    2019-04-01 00:00:00
4    2019-04-01 00:11:00
Name: 进出时间, dtype: object

In [28]:
#检查data3的缺失比例
data3.apply(lambda x: sum(x.isnull())/len(x),axis=0)

序号      0.0
门禁卡号    0.0
进出时间    0.0
进出地点    0.0
是否通过    0.0
描述通过    0.0
dtype: float64

无缺失值

In [29]:
#各个进出地点出现的频率
data3['进出地点'].value_counts(dropna=False)

进出地点
飞凤轩[进门]      10689
飞凤轩[出门]      10397
第六教学楼[进门]     7713
第六教学楼[出门]     7217
青鸾苑[出门]       3318
青鸾苑[进门]       2787
第七教学楼[进门]      449
第五教学楼[进门]      250
第五教学楼[出门]      222
第七教学楼[出门]      114
Name: count, dtype: int64

In [30]:
#检查是否通过这一类的值出现的频率，顺便观看是否有异常值
data3["是否通过"].value_counts(dropna=False)

是否通过
1    41749
0     1407
Name: count, dtype: int64

0为异常值

In [31]:
#删掉是否通过中的0值
data3=data3[data3.loc[:,"是否通过"]!=0]

In [32]:
data3.shape

(41749, 6)

In [33]:
#存入文件
data3.to_csv('task1_1_3.csv',index=False,encoding='gbk')

## 建立表关联连接

In [34]:
data1=pd.read_csv('task1_1_1.csv',encoding='gbk')
data2=pd.read_csv('task1_1_2.csv',encoding='gbk')
data3=pd.read_csv('task1_1_3.csv',encoding='gbk')

In [35]:
print(data1.shape)
data1.head(3)

(4341, 5)


Unnamed: 0,序号,校园卡号,性别,专业名称,门禁卡号
0,1,180001,男,18国际金融,19762330
1,2,180002,男,18国际金融,20521594
2,3,180003,男,18国际金融,20513946


In [36]:
print(data2.shape)
data2.head(3)

(519367, 12)


Unnamed: 0,流水号,校园卡号,校园卡编号,消费时间,消费金额,存储金额,余额,消费次数,消费类型,消费项目编码,操作编码,消费地点
0,117342773,181316,20181316,2019-04-20 20:17:00,3.0,0.0,186.1,818,消费,49,235,第一食堂
1,117344766,181316,20181316,2019-04-20 08:47:00,0.5,0.0,199.5,814,消费,63,27,第二食堂
2,117346258,181316,20181316,2019-04-22 07:27:00,0.5,0.0,183.1,820,消费,63,27,第二食堂


In [37]:
print(data3.shape)
data3.head(3)

(41749, 6)


Unnamed: 0,序号,门禁卡号,进出时间,进出地点,是否通过,描述通过
0,1330906,25558880,2019-04-01 00:00:00,第六教学楼[进门],1,允许通过
1,1330907,18413143,2019-04-01 00:02:00,第六教学楼[出门],1,允许通过
2,1331384,11642752,2019-04-01 00:00:00,飞凤轩[进门],1,允许通过


### data1连接data2

In [38]:
#将data1连接data2，利用校园卡号
data1_merge_data2=pd.merge(data1,data2,how='left',left_on="校园卡号",right_on="校园卡号")
data1_merge_data2.shape

(242152, 16)

In [39]:
 #返回最后五行数据观看，查看是否有异常
data1_merge_data2.tail() 

Unnamed: 0,序号,校园卡号,性别,专业名称,门禁卡号,流水号,校园卡编号,消费时间,消费金额,存储金额,余额,消费次数,消费类型,消费项目编码,操作编码,消费地点
242147,4339,184339,女,18工业工程,11513762,117193924.0,20184339.0,2019-04-15 07:27:00,0.6,0.0,45.9,527.0,消费,127.0,204.0,第五食堂
242148,4339,184339,女,18工业工程,11513762,117195245.0,20184339.0,2019-04-15 13:14:00,6.0,0.0,39.9,528.0,消费,132.0,204.0,第五食堂
242149,4339,184339,女,18工业工程,11513762,117212601.0,20184339.0,2019-04-12 15:05:00,0.5,0.0,58.3,521.0,消费,141.0,204.0,第五食堂
242150,4340,164340,男,18审计,12750370,,,,,,,,,,,
242151,4341,164341,男,18宝玉石鉴定,427586,,,,,,,,,,,


In [40]:
#查看缺失值的比例
data1_merge_data2.apply(lambda x : sum(x.isnull())/len(x),axis=0)

序号        0.000000
校园卡号      0.000000
性别        0.000000
专业名称      0.000000
门禁卡号      0.000000
流水号       0.004431
校园卡编号     0.004431
消费时间      0.004431
消费金额      0.004431
存储金额      0.004431
余额        0.004431
消费次数      0.004431
消费类型      0.004431
消费项目编码    0.004431
操作编码      0.004431
消费地点      0.004431
dtype: float64

In [41]:
#缺失值可以直接删掉，没意义对后续的处理
#因为都是表连接的时候产生的缺失值，所以随便选择data2表中的一个字段删除就可以了
data1_merge_data2=data1_merge_data2.dropna(subset=["流水号"],how='any')

In [42]:
data1_merge_data2.shape

(241079, 16)

In [43]:
#表存储
data1_merge_data2.to_csv('task1_2_1.csv',index=False,encoding='gbk')

### data1连接data3

In [44]:
data1_merge_data3=pd.merge(data1,data3,how='left',left_on='门禁卡号',right_on="门禁卡号")

In [45]:
print(data1_merge_data3.shape)
data1_merge_data3.tail()

(21709, 10)


Unnamed: 0,序号_x,校园卡号,性别,专业名称,门禁卡号,序号_y,进出时间,进出地点,是否通过,描述通过
21704,4337,184337,女,18工业工程,19051328,,,,,
21705,4338,184338,女,18工业工程,21915376,,,,,
21706,4339,184339,女,18工业工程,11513762,,,,,
21707,4340,164340,男,18审计,12750370,,,,,
21708,4341,164341,男,18宝玉石鉴定,427586,,,,,


有很多缺失值，接下来查看缺失值的比例

In [46]:
data1_merge_data3.apply(lambda x: sum(x.isnull())/len(x),axis=0)

序号_x    0.000000
校园卡号    0.000000
性别      0.000000
专业名称    0.000000
门禁卡号    0.000000
序号_y    0.157723
进出时间    0.157723
进出地点    0.157723
是否通过    0.157723
描述通过    0.157723
dtype: float64

In [48]:
#删除掉缺失值
data1_merge_data3=data1_merge_data3.dropna(subset=['进出时间'],how='any')
data1_merge_data3.shape

(18285, 10)

In [49]:
#存入文件
data1_merge_data3.to_csv('task1_2_2.csv',index=False,encoding='gbk')