## <font color='blue'>数据清洗案例

### 1. 导入相关包

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline 
#jupyter notebook一定运行这一行代码，在cell中显示图形

### 2.导入数据集

In [2]:
df=pd.read_csv('qunar_freetrip.csv',index_col=0)

In [3]:
df.head(2)

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间
0,哈尔滨,北海,2208.0,650.0,哈尔滨-北海3天2晚 | 入住北海祥丰嘉年华大酒店 + 春秋航空往返机票,北海祥丰嘉年华大酒店 舒适型 4.7分/5分,标准双人间(双床) 双床 不含早 1间2晚,春秋航空 9C8741,直飞,17:10-21:50,春秋航空 9C8742,直飞,10:20-15:05
1,成都,泸沽湖,1145.0,376.0,成都-泸沽湖3天2晚 | 入住7天酒店丽江古城中心店 + 成都航空往返机票,7天酒店丽江古城中心店 经济型 4.0分/5分,经济房-不含早-限时特... 其他 不含早 1间2晚,成都航空 EU2237,直飞,19:45-21:20,成都航空 EU2738,直飞,23:30-01:05


### 3. 初步探索数据

In [4]:
#查看数据形状
df.shape

(5100, 13)

In [5]:
#快速了解数据的结构
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5100 entries, 0 to 5099
Data columns (total 13 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   出发地     5098 non-null   object 
 1    目的地    5099 non-null   object 
 2   价格      5072 non-null   float64
 3   节省      5083 non-null   float64
 4   路线名     5100 non-null   object 
 5   酒店      5100 non-null   object 
 6   房间      5100 non-null   object 
 7   去程航司    5100 non-null   object 
 8   去程方式    5100 non-null   object 
 9   去程时间    5100 non-null   object 
 10  回程航司    5100 non-null   object 
 11  回程方式    5100 non-null   object 
 12  回程时间    5100 non-null   object 
dtypes: float64(2), object(11)
memory usage: 557.8+ KB


In [6]:
#快速查看数据的描述性统计信息
df.describe() #显示数值型数据的描述统计

Unnamed: 0,价格,节省
count,5072.0,5083.0
mean,1765.714905,474.139878
std,2580.129644,168.89378
min,578.0,306.0
25%,1253.0,358.0
50%,1632.0,436.0
75%,2028.25,530.0
max,179500.0,3500.0


### 4.简单数据处理

In [7]:
df.columns

Index(['出发地 ', ' 目的地', '价格 ', '节省', '路线名', '酒店', '房间', '去程航司', '去程方式', '去程时间',
       '回程航司', '回程方式 ', '回程时间'],
      dtype='object')

In [8]:
df.head(2)

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间
0,哈尔滨,北海,2208.0,650.0,哈尔滨-北海3天2晚 | 入住北海祥丰嘉年华大酒店 + 春秋航空往返机票,北海祥丰嘉年华大酒店 舒适型 4.7分/5分,标准双人间(双床) 双床 不含早 1间2晚,春秋航空 9C8741,直飞,17:10-21:50,春秋航空 9C8742,直飞,10:20-15:05
1,成都,泸沽湖,1145.0,376.0,成都-泸沽湖3天2晚 | 入住7天酒店丽江古城中心店 + 成都航空往返机票,7天酒店丽江古城中心店 经济型 4.0分/5分,经济房-不含早-限时特... 其他 不含早 1间2晚,成都航空 EU2237,直飞,19:45-21:20,成都航空 EU2738,直飞,23:30-01:05


In [9]:
col = df.columns.values

In [10]:
col

array(['出发地 ', ' 目的地', '价格 ', '节省', '路线名', '酒店', '房间', '去程航司', '去程方式',
       '去程时间', '回程航司', '回程方式 ', '回程时间'], dtype=object)

In [11]:
col[0].strip() #strip函数一次只能处理一个数据

'出发地'

In [12]:
[x.strip() for x in col]
#strip去除前后空格

['出发地',
 '目的地',
 '价格',
 '节省',
 '路线名',
 '酒店',
 '房间',
 '去程航司',
 '去程方式',
 '去程时间',
 '回程航司',
 '回程方式',
 '回程时间']

In [13]:
df.columns = [x.strip() for x in col]

In [14]:
df.columns

Index(['出发地', '目的地', '价格', '节省', '路线名', '酒店', '房间', '去程航司', '去程方式', '去程时间',
       '回程航司', '回程方式', '回程时间'],
      dtype='object')

### 5.重复值的处理

#### 检查重复值duplicated()
Duplicated函数功能：查找并显示数据表中的重复值   
这里需要注意的是：    
- 当两条记录中所有的数据都相等时duplicated函数才会判断为重复值        
- duplicated支持从前向后(first)，和从后向前(last)两种重复值查找模式   
- 默认是从前向后进行重复值的查找和判断，也就是后面的条目在重复值判断中显示为True    

In [15]:
#第一行数据
#第二行数据和第一行一样
#从前向后就把第二行数据判断为重复值
#从后向前就把第一行数据判断为重复值

In [16]:
df.duplicated() #返回布尔型数据，告诉重复值的位置

0       False
1       False
2       False
3       False
4       False
        ...  
5095     True
5096    False
5097    False
5098    False
5099    False
Length: 5100, dtype: bool

In [17]:
df.duplicated().sum()#说明有100个重复值

100

In [18]:
#查看重复的记录
df[df.duplicated()]

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间
454,广州,黄山,1871.0,492.0,广州-黄山3天2晚 | 入住黄山汤口醉享主题酒店 + 南方航空往返机票,黄山汤口醉享主题酒店 舒适型 4.8分/5分,睫毛弯弯(大床) 大床 不含早 1间2晚,南方航空 CZ3627,直飞,19:20-21:15,南方航空 CZ3628,直飞,22:05-23:50
649,济南,长沙,1134.0,360.0,济南-长沙3天2晚 | 入住长沙喜迎宾华天大酒店 + 山东航空往返机票,长沙喜迎宾华天大酒店 高档型 3.7分/5分,特惠双间(特惠抢购)(... 双床 不含早 1间2晚,山东航空 SC1185,直飞,18:40-20:50,山东航空 SC1186,直飞,10:20-12:15
685,青岛,重庆,1474.0,420.0,青岛-重庆3天2晚 | 入住怡家丽景酒店重庆垫江店 + 山东航空/华夏航空往返机票,怡家丽景酒店重庆垫江店 舒适型 4.3分/5分,法式房(内宾)(无窗)... 大床 不含早 1间2晚,山东航空 SC4709,经停,19:30-00:05,华夏航空 G54710,经停,18:00-22:25
852,北京,哈尔滨,1450.0,368.0,北京-哈尔滨3天2晚 | 入住哈尔滨水逸城市酒店 + 南方航空/大新华航空往返机票,哈尔滨水逸城市酒店 舒适型 4.6分/5分,标准间-【预付特惠】独... 双床 双早 1间2晚,南方航空 CZ6202,直飞,22:20-00:20,大新华航空 CN7150,直飞,22:50-00:55
922,北京,长沙,1289.0,334.0,北京-长沙3天2晚 | 入住浏阳市华尔宫大酒店 + 海南航空/南方航空往返机票,浏阳市华尔宫大酒店 3.8分/5分,豪华双人间(双床) 双床 不含早 1间2晚,海南航空 HU7135,直飞,17:45-20:30,南方航空 CZ3855,直飞,22:55-01:10
...,...,...,...,...,...,...,...,...,...,...,...,...,...
5045,杭州,丽江,2872.0,718.0,杭州-丽江3天2晚 | 入住丽江松竹居客栈玉观音店 + 长龙航空/首都航空往返机票,丽江松竹居客栈玉观音店 高档型 4.6分/5分,特惠房(大床) 大床 不含早 1间2晚,长龙航空 GJ8869,经停,08:50-13:35,首都航空 JD5192,直飞,13:00-16:15
5066,哈尔滨,西安,1843.0,450.0,哈尔滨-西安3天2晚 | 入住西安铁通商务酒店贵宾楼 + 天津航空/东方航空往返...,西安铁通商务酒店贵宾楼 舒适型 4.2分/5分,标准间(持房卡尊享清凉... 双床 不含早 1间2晚,天津航空 GS7584,经停,12:30-17:40,东方航空 MU2211,经停,08:45-13:25
5068,南京,成都,1922.0,552.0,南京-成都3天2晚 | 入住成都伊丽特酒店 + 东方航空/西藏航空往返机票,成都伊丽特酒店 高档型 4.5分/5分,行政标准间-含早立即确... 双床 双早 1间2晚,东方航空 MU2880,直飞,21:55-00:35,西藏航空 TV9839,直飞,06:30-08:55
5081,上海,青岛,769.0,354.0,上海-青岛3天2晚 | 入住青岛金中太大酒店 + 春秋航空/吉祥航空往返机票,青岛金中太大酒店 舒适型 4.8分/5分,特惠大床房[无早] 大床 不含早 1间2晚,春秋航空 9C8853,直飞,19:50-21:35,吉祥航空 HO1242,直飞,23:05-00:35


#### 删除重复值drop_duplicates()   
drop_duplicates函数功能是：删除数据表中的重复值，判断标准和逻辑与duplicated函数一样   

In [19]:
df.drop_duplicates(inplace=True) 
#inplace=True表示直接在源数据上进行操作

In [20]:
df.head()

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间
0,哈尔滨,北海,2208.0,650.0,哈尔滨-北海3天2晚 | 入住北海祥丰嘉年华大酒店 + 春秋航空往返机票,北海祥丰嘉年华大酒店 舒适型 4.7分/5分,标准双人间(双床) 双床 不含早 1间2晚,春秋航空 9C8741,直飞,17:10-21:50,春秋航空 9C8742,直飞,10:20-15:05
1,成都,泸沽湖,1145.0,376.0,成都-泸沽湖3天2晚 | 入住7天酒店丽江古城中心店 + 成都航空往返机票,7天酒店丽江古城中心店 经济型 4.0分/5分,经济房-不含早-限时特... 其他 不含早 1间2晚,成都航空 EU2237,直飞,19:45-21:20,成都航空 EU2738,直飞,23:30-01:05
2,广州,沈阳,2702.0,618.0,广州-沈阳3天2晚 | 入住沈阳中煤宾馆 + 南方航空/深圳航空往返机票,沈阳中煤宾馆 舒适型 4.5分/5分,大床间(内宾) 大床 双早 1间2晚,南方航空 CZ6384,直飞,08:05-11:45,深圳航空 ZH9652,经停,08:20-13:05
3,上海,九寨沟,1954.0,484.0,上海-九寨沟3天2晚 | 入住红原芸谊大酒店 + 成都航空往返机票,红原芸谊大酒店 舒适型 4.6分/5分,豪华双床房[双早] 双床 双早 1间2晚,成都航空 EU6678,直飞,21:55-01:15,成都航空 EU6677,直飞,17:45-20:35
4,广州,天津,1608.0,422.0,广州-天津3天2晚 | 入住天津逸海明珠大酒店 + 奥凯航空/海南航空往返机票,天津逸海明珠大酒店 高档型 4.1分/5分,豪华双床房(预付) 双床 不含早 1间2晚,奥凯航空 BK2787,直飞,06:55-10:00,海南航空 HU7201,直飞,20:15-23:25


In [21]:
df.shape

(5000, 13)

In [22]:
df

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间
0,哈尔滨,北海,2208.0,650.0,哈尔滨-北海3天2晚 | 入住北海祥丰嘉年华大酒店 + 春秋航空往返机票,北海祥丰嘉年华大酒店 舒适型 4.7分/5分,标准双人间(双床) 双床 不含早 1间2晚,春秋航空 9C8741,直飞,17:10-21:50,春秋航空 9C8742,直飞,10:20-15:05
1,成都,泸沽湖,1145.0,376.0,成都-泸沽湖3天2晚 | 入住7天酒店丽江古城中心店 + 成都航空往返机票,7天酒店丽江古城中心店 经济型 4.0分/5分,经济房-不含早-限时特... 其他 不含早 1间2晚,成都航空 EU2237,直飞,19:45-21:20,成都航空 EU2738,直飞,23:30-01:05
2,广州,沈阳,2702.0,618.0,广州-沈阳3天2晚 | 入住沈阳中煤宾馆 + 南方航空/深圳航空往返机票,沈阳中煤宾馆 舒适型 4.5分/5分,大床间(内宾) 大床 双早 1间2晚,南方航空 CZ6384,直飞,08:05-11:45,深圳航空 ZH9652,经停,08:20-13:05
3,上海,九寨沟,1954.0,484.0,上海-九寨沟3天2晚 | 入住红原芸谊大酒店 + 成都航空往返机票,红原芸谊大酒店 舒适型 4.6分/5分,豪华双床房[双早] 双床 双早 1间2晚,成都航空 EU6678,直飞,21:55-01:15,成都航空 EU6677,直飞,17:45-20:35
4,广州,天津,1608.0,422.0,广州-天津3天2晚 | 入住天津逸海明珠大酒店 + 奥凯航空/海南航空往返机票,天津逸海明珠大酒店 高档型 4.1分/5分,豪华双床房(预付) 双床 不含早 1间2晚,奥凯航空 BK2787,直飞,06:55-10:00,海南航空 HU7201,直飞,20:15-23:25
...,...,...,...,...,...,...,...,...,...,...,...,...,...
5094,大连,武汉,1473.0,368.0,大连-武汉3天2晚 | 入住武汉保利大酒店 + 南方航空/东方航空往返机票,武汉保利大酒店 豪华型 4.3分/5分,附楼标准间（双床） 双床 双早 1间2晚,南方航空 CZ8306,直飞,18:35-21:10,东方航空 MU2517,经停,07:40-12:05
5096,成都,泸沽湖,1158.0,376.0,成都-泸沽湖3天2晚 | 入住丽江望月阁客栈 + 成都航空往返机票,丽江望月阁客栈 经济型 4.6分/5分,标准双人间-不含早（预... 双床 不含早 1间2晚,成都航空 EU2237,直飞,19:45-21:20,成都航空 EU2738,直飞,23:30-01:05
5097,天津,丽江,1616.0,426.0,天津-丽江3天2晚 | 入住丽江凡间度假连锁客栈青旅店 + 天津航空/首都航空往...,丽江凡间度假连锁客栈青旅店 经济型 4.5分/5分,大床房-预付 大床 不含早 1间2晚,天津航空 GS7861,直飞,16:25-19:45,首都航空 JD5739,直飞,07:50-10:50
5098,大连,重庆,1703.0,446.0,大连-重庆3天2晚 | 入住重庆酉阳锦宏大酒店 + 华夏航空/山东航空往返机票,重庆酉阳锦宏大酒店 舒适型 4.0分/5分,特惠房(大床) 大床 不含早 1间2晚,华夏航空 G52762,经停,18:25-23:30,山东航空 SC4837,经停,07:00-11:30


In [23]:
df.shape[0]

5000

In [24]:
range(df.shape[0])

range(0, 5000)

In [25]:
df.index = range(df.shape[0])

In [26]:
df.index

RangeIndex(start=0, stop=5000, step=1)

### 6.异常值的处理

In [27]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
价格,4972.0,1767.782381,2604.32978,578.0,1253.0,1633.0,2031.0,179500.0
节省,4983.0,474.490869,169.148391,306.0,358.0,436.0,532.0,3500.0


In [28]:
#找出'价格'异常值
sta=(df['价格']-df['价格'].mean())/df['价格'].std()

In [29]:
sta[:10]

0    0.169033
1   -0.239133
2    0.358717
3    0.071503
4   -0.061353
5   -0.072104
6   -0.054825
7   -0.036394
8   -0.229534
9   -0.175393
Name: 价格, dtype: float64

In [30]:
sta.abs()[:10]

0    0.169033
1    0.239133
2    0.358717
3    0.071503
4    0.061353
5    0.072104
6    0.054825
7    0.036394
8    0.229534
9    0.175393
Name: 价格, dtype: float64

In [31]:
sta.abs()>3

0       False
1       False
2       False
3       False
4       False
        ...  
4995    False
4996    False
4997    False
4998    False
4999    False
Name: 价格, Length: 5000, dtype: bool

In [32]:
df[sta.abs()>3]

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间
2763,杭州,九寨沟,179500.0,538.0,杭州-九寨沟3天2晚 | 入住九寨沟九乡宾馆 + 成都航空/长龙航空往返机票,九寨沟九乡宾馆 舒适型 4.3分/5分,特惠房(双床) 双床 不含早 1间2晚,成都航空 EU2206,经停,20:30-01:00,长龙航空 GJ8680,经停,20:25-00:50


In [33]:
df.head(10)

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间
0,哈尔滨,北海,2208.0,650.0,哈尔滨-北海3天2晚 | 入住北海祥丰嘉年华大酒店 + 春秋航空往返机票,北海祥丰嘉年华大酒店 舒适型 4.7分/5分,标准双人间(双床) 双床 不含早 1间2晚,春秋航空 9C8741,直飞,17:10-21:50,春秋航空 9C8742,直飞,10:20-15:05
1,成都,泸沽湖,1145.0,376.0,成都-泸沽湖3天2晚 | 入住7天酒店丽江古城中心店 + 成都航空往返机票,7天酒店丽江古城中心店 经济型 4.0分/5分,经济房-不含早-限时特... 其他 不含早 1间2晚,成都航空 EU2237,直飞,19:45-21:20,成都航空 EU2738,直飞,23:30-01:05
2,广州,沈阳,2702.0,618.0,广州-沈阳3天2晚 | 入住沈阳中煤宾馆 + 南方航空/深圳航空往返机票,沈阳中煤宾馆 舒适型 4.5分/5分,大床间(内宾) 大床 双早 1间2晚,南方航空 CZ6384,直飞,08:05-11:45,深圳航空 ZH9652,经停,08:20-13:05
3,上海,九寨沟,1954.0,484.0,上海-九寨沟3天2晚 | 入住红原芸谊大酒店 + 成都航空往返机票,红原芸谊大酒店 舒适型 4.6分/5分,豪华双床房[双早] 双床 双早 1间2晚,成都航空 EU6678,直飞,21:55-01:15,成都航空 EU6677,直飞,17:45-20:35
4,广州,天津,1608.0,422.0,广州-天津3天2晚 | 入住天津逸海明珠大酒店 + 奥凯航空/海南航空往返机票,天津逸海明珠大酒店 高档型 4.1分/5分,豪华双床房(预付) 双床 不含早 1间2晚,奥凯航空 BK2787,直飞,06:55-10:00,海南航空 HU7201,直飞,20:15-23:25
5,长春,青岛,1580.0,390.0,长春-青岛3天2晚 | 入住青岛康大豪生大酒店 + 南方航空往返机票,青岛康大豪生大酒店 豪华型 4.6分/5分,精选房(大床)[酒店★... 大床 不含早 1间2晚,南方航空 CZ3938,直飞,20:00-21:55,南方航空 CZ3963,直飞,15:40-17:30
6,济南,九寨沟,1625.0,396.0,济南-九寨沟3天2晚 | 入住阿坝松潘松林酒店 + 中国国航/成都航空往返机票,阿坝松潘松林酒店 舒适型 4.3分/5分,豪华标准间(双床) 双床 不含早 1间2晚,中国国航 CA4528,直飞,21:00-23:30,成都航空 EU2719,直飞,06:55-09:25
7,宁波,重庆,1673.0,404.0,宁波-重庆3天2晚 | 入住重庆运通假日酒店汽博中心店 + 南方航空/四川航空往...,重庆运通假日酒店汽博中心店 舒适型 4.3分/5分,特惠房(大床) 大床 双早 1间2晚,南方航空 CZ8116,直飞,17:15-19:40,四川航空 3U8983,直飞,06:55-09:35
8,哈尔滨,南京,1170.0,340.0,哈尔滨-南京3天2晚 | 入住维也纳酒店南京南站汇景店 + 吉祥航空/厦门航空往...,维也纳酒店南京南站汇景店 舒适型 4.4分/5分,特惠大床房（无窗）[双... 大床 双早 1间2晚,吉祥航空 HO1651,直飞,17:10-20:00,厦门航空 MF8067,直飞,19:40-22:25
9,深圳,厦门,1311.0,350.0,深圳-厦门3天2晚 | 入住厦门泊旅时尚酒店会展中心店 + 海南航空往返机票,厦门泊旅时尚酒店会展中心店 舒适型 4.0分/5分,时尚标准双床房 双床 双早 1间2晚,海南航空 HU7065,直飞,07:30-08:40,海南航空 HU7066,直飞,15:30-16:40


In [34]:
sum(df.价格>df.节省)

4952

In [35]:
#找出'节省'异常值
df[df.节省>df.价格]

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间
2904,武汉,西安,949.0,3500.0,武汉-西安3天2晚 | 入住西安西稍门大酒店 + 东方航空往返机票,西安西稍门大酒店 舒适型 3.3分/5分,标准间B(丝路之旅)(... 双床 不含早 1间2晚,东方航空 MU2194,直飞,21:50-23:30,东方航空 MU2462,直飞,19:35-21:20
3108,济南,大连,911.0,3180.0,济南-大连3天2晚 | 入住普兰店科洋大酒店 + 山东航空/厦门航空往返机票,普兰店科洋大酒店 舒适型 4.4分/5分,大床房(限量促销) 大床 不含早 1间2晚,山东航空 SC4916,直飞,19:45-20:50,厦门航空 MF8042,直飞,13:10-14:20
3660,沈阳,青岛,924.0,3200.0,沈阳-青岛3天2晚 | 入住星程酒店青岛台东步行街店 + 青岛航/南方航空往返机票,星程酒店青岛台东步行街店 舒适型 4.2分/5分,大床房(内宾)(提前1... 大床 不含早 1间2晚,青岛航 QW9780,直飞,22:35-00:10,南方航空 CZ6568,直飞,20:55-22:35


- 对于建模来说，通常会删掉异常值   
- 但是对于业务来说，异常值中可能包含有更多的价值

In [36]:
pd.concat([df[df.节省>df.价格],df[sta.abs()>3]])

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间
2904,武汉,西安,949.0,3500.0,武汉-西安3天2晚 | 入住西安西稍门大酒店 + 东方航空往返机票,西安西稍门大酒店 舒适型 3.3分/5分,标准间B(丝路之旅)(... 双床 不含早 1间2晚,东方航空 MU2194,直飞,21:50-23:30,东方航空 MU2462,直飞,19:35-21:20
3108,济南,大连,911.0,3180.0,济南-大连3天2晚 | 入住普兰店科洋大酒店 + 山东航空/厦门航空往返机票,普兰店科洋大酒店 舒适型 4.4分/5分,大床房(限量促销) 大床 不含早 1间2晚,山东航空 SC4916,直飞,19:45-20:50,厦门航空 MF8042,直飞,13:10-14:20
3660,沈阳,青岛,924.0,3200.0,沈阳-青岛3天2晚 | 入住星程酒店青岛台东步行街店 + 青岛航/南方航空往返机票,星程酒店青岛台东步行街店 舒适型 4.2分/5分,大床房(内宾)(提前1... 大床 不含早 1间2晚,青岛航 QW9780,直飞,22:35-00:10,南方航空 CZ6568,直飞,20:55-22:35
2763,杭州,九寨沟,179500.0,538.0,杭州-九寨沟3天2晚 | 入住九寨沟九乡宾馆 + 成都航空/长龙航空往返机票,九寨沟九乡宾馆 舒适型 4.3分/5分,特惠房(双床) 双床 不含早 1间2晚,成都航空 EU2206,经停,20:30-01:00,长龙航空 GJ8680,经停,20:25-00:50


In [54]:
pd.concat([df[df.节省>df.价格],df[sta.abs()>3]]).index

Int64Index([2904, 3108, 3660, 2763], dtype='int64')

In [56]:
delindex = pd.concat([df[df.节省>df.价格],df[sta.abs()>3]]).index

In [58]:
df.drop(delindex,inplace=True)

In [59]:
df.shape

(4996, 13)

### 7.缺失值的处理

- df.isnull()  #查看缺失值
- df.notnull() #查看不是缺失值的数据
- df.dropna()  #删除缺失值
- df.fillna()  #填补缺失值 

In [61]:
df.isnull().sum()

出发地      2
目的地      1
价格      28
节省      17
路线名      0
酒店       0
房间       0
去程航司     0
去程方式     0
去程时间     0
回程航司     0
回程方式     0
回程时间     0
dtype: int64

In [62]:
df[df.出发地.isnull()]

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间
1850,,烟台,647.0,348.0,大连-烟台3天2晚 | 入住烟台海阳黄金海岸大酒店 + 幸福航空/天津航空往返机票,烟台海阳黄金海岸大酒店 3.7分/5分,海景标准间(内宾)[双... 双床 双早 1间2晚,幸福航空 JR1582,直飞,10:05-11:05,天津航空 GS6402,直飞,16:30-17:25
1915,,西安,1030.0,326.0,济南-西安3天2晚 | 入住西安丝路秦国际青年旅舍钟楼回民街店 + 华夏航空往返...,西安丝路秦国际青年旅舍钟楼回民街店 经济型 4.4分/5分,标准间（独卫）-吃货天... 双床 不含早 1间2晚,华夏航空 G54963,直飞,07:10-08:55,华夏航空 G58858,直飞,23:10-00:55


In [63]:
[str(x)[:2] for x in df.loc[df.出发地.isnull(),'路线名']]

['大连', '济南']

In [64]:
df.loc[df.出发地.isnull(),'出发地'] = [str(x)[:2] for x in df.loc[df.出发地.isnull(),'路线名']]

In [65]:
df[df.出发地.isnull()]

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间


In [66]:
df.出发地.isnull().sum()

0

In [67]:
df[df.目的地.isnull()]

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间
1860,深圳,,2149.0,494.0,深圳-大连3天2晚 | 入住大连黄金山大酒店 + 南方航空/东海往返机票,大连黄金山大酒店 舒适型 3.4分/5分,标准间 大/双床 不含早 1间2晚,南方航空 CZ6833,直飞,09:10-12:40,东海 DZ6242,经停,12:40-18:00


In [69]:
str(df.loc[df.目的地.isnull(),'路线名'].values)[5:7]

'大连'

In [70]:
df.loc[df.目的地.isnull(),'目的地'] = str(df.loc[df.目的地.isnull(),'路线名'].values)[5:7]

In [72]:
round(df['价格'].mean(),0)

1733.0

In [73]:
#处理价格缺失值
df['价格'].fillna(round(df['价格'].mean(),0),inplace=True)

In [74]:
#处理节省缺失值
df['节省'].fillna(round(df['节省'].mean(),0),inplace=True)

In [75]:
df.isnull().sum()

出发地     0
目的地     0
价格      0
节省      0
路线名     0
酒店      0
房间      0
去程航司    0
去程方式    0
去程时间    0
回程航司    0
回程方式    0
回程时间    0
dtype: int64

### 8. 处理文本型数据

In [109]:
# 如果我们想要在一系列文本提取信息,可以使用正则表达式
# 正则表达式通常被用来检索某个规则的文本

In [77]:
df.head(10)

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间
0,哈尔滨,北海,2208.0,650.0,哈尔滨-北海3天2晚 | 入住北海祥丰嘉年华大酒店 + 春秋航空往返机票,北海祥丰嘉年华大酒店 舒适型 4.7分/5分,标准双人间(双床) 双床 不含早 1间2晚,春秋航空 9C8741,直飞,17:10-21:50,春秋航空 9C8742,直飞,10:20-15:05
1,成都,泸沽湖,1145.0,376.0,成都-泸沽湖3天2晚 | 入住7天酒店丽江古城中心店 + 成都航空往返机票,7天酒店丽江古城中心店 经济型 4.0分/5分,经济房-不含早-限时特... 其他 不含早 1间2晚,成都航空 EU2237,直飞,19:45-21:20,成都航空 EU2738,直飞,23:30-01:05
2,广州,沈阳,2702.0,618.0,广州-沈阳3天2晚 | 入住沈阳中煤宾馆 + 南方航空/深圳航空往返机票,沈阳中煤宾馆 舒适型 4.5分/5分,大床间(内宾) 大床 双早 1间2晚,南方航空 CZ6384,直飞,08:05-11:45,深圳航空 ZH9652,经停,08:20-13:05
3,上海,九寨沟,1954.0,484.0,上海-九寨沟3天2晚 | 入住红原芸谊大酒店 + 成都航空往返机票,红原芸谊大酒店 舒适型 4.6分/5分,豪华双床房[双早] 双床 双早 1间2晚,成都航空 EU6678,直飞,21:55-01:15,成都航空 EU6677,直飞,17:45-20:35
4,广州,天津,1608.0,422.0,广州-天津3天2晚 | 入住天津逸海明珠大酒店 + 奥凯航空/海南航空往返机票,天津逸海明珠大酒店 高档型 4.1分/5分,豪华双床房(预付) 双床 不含早 1间2晚,奥凯航空 BK2787,直飞,06:55-10:00,海南航空 HU7201,直飞,20:15-23:25
5,长春,青岛,1580.0,390.0,长春-青岛3天2晚 | 入住青岛康大豪生大酒店 + 南方航空往返机票,青岛康大豪生大酒店 豪华型 4.6分/5分,精选房(大床)[酒店★... 大床 不含早 1间2晚,南方航空 CZ3938,直飞,20:00-21:55,南方航空 CZ3963,直飞,15:40-17:30
6,济南,九寨沟,1625.0,396.0,济南-九寨沟3天2晚 | 入住阿坝松潘松林酒店 + 中国国航/成都航空往返机票,阿坝松潘松林酒店 舒适型 4.3分/5分,豪华标准间(双床) 双床 不含早 1间2晚,中国国航 CA4528,直飞,21:00-23:30,成都航空 EU2719,直飞,06:55-09:25
7,宁波,重庆,1673.0,404.0,宁波-重庆3天2晚 | 入住重庆运通假日酒店汽博中心店 + 南方航空/四川航空往...,重庆运通假日酒店汽博中心店 舒适型 4.3分/5分,特惠房(大床) 大床 双早 1间2晚,南方航空 CZ8116,直飞,17:15-19:40,四川航空 3U8983,直飞,06:55-09:35
8,哈尔滨,南京,1170.0,340.0,哈尔滨-南京3天2晚 | 入住维也纳酒店南京南站汇景店 + 吉祥航空/厦门航空往...,维也纳酒店南京南站汇景店 舒适型 4.4分/5分,特惠大床房（无窗）[双... 大床 双早 1间2晚,吉祥航空 HO1651,直飞,17:10-20:00,厦门航空 MF8067,直飞,19:40-22:25
9,深圳,厦门,1311.0,350.0,深圳-厦门3天2晚 | 入住厦门泊旅时尚酒店会展中心店 + 海南航空往返机票,厦门泊旅时尚酒店会展中心店 舒适型 4.0分/5分,时尚标准双床房 双床 双早 1间2晚,海南航空 HU7065,直飞,07:30-08:40,海南航空 HU7066,直飞,15:30-16:40


In [79]:
df.酒店[:10]

0       北海祥丰嘉年华大酒店 舒适型 4.7分/5分
1      7天酒店丽江古城中心店 经济型 4.0分/5分
2           沈阳中煤宾馆 舒适型 4.5分/5分
3          红原芸谊大酒店 舒适型 4.6分/5分
4        天津逸海明珠大酒店 高档型 4.1分/5分
5        青岛康大豪生大酒店 豪华型 4.6分/5分
6         阿坝松潘松林酒店 舒适型 4.3分/5分
7    重庆运通假日酒店汽博中心店 舒适型 4.3分/5分
8     维也纳酒店南京南站汇景店 舒适型 4.4分/5分
9    厦门泊旅时尚酒店会展中心店 舒适型 4.0分/5分
Name: 酒店, dtype: object

In [82]:
df.酒店.str.extract('(\d\.\d)分/5分',expand=True)[:10]

Unnamed: 0,0
0,4.7
1,4.0
2,4.5
3,4.6
4,4.1
5,4.6
6,4.3
7,4.3
8,4.4
9,4.0


In [83]:
#提取酒店评分
df['酒店评分'] = df.酒店.str.extract('(\d\.\d)分/5分',expand=False)

#expand=False (return Index/Series)
#expand=True (return DataFrame)

In [84]:
df.head(2)

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间,酒店评分
0,哈尔滨,北海,2208.0,650.0,哈尔滨-北海3天2晚 | 入住北海祥丰嘉年华大酒店 + 春秋航空往返机票,北海祥丰嘉年华大酒店 舒适型 4.7分/5分,标准双人间(双床) 双床 不含早 1间2晚,春秋航空 9C8741,直飞,17:10-21:50,春秋航空 9C8742,直飞,10:20-15:05,4.7
1,成都,泸沽湖,1145.0,376.0,成都-泸沽湖3天2晚 | 入住7天酒店丽江古城中心店 + 成都航空往返机票,7天酒店丽江古城中心店 经济型 4.0分/5分,经济房-不含早-限时特... 其他 不含早 1间2晚,成都航空 EU2237,直飞,19:45-21:20,成都航空 EU2738,直飞,23:30-01:05,4.0


In [85]:
df.酒店[:10]

0       北海祥丰嘉年华大酒店 舒适型 4.7分/5分
1      7天酒店丽江古城中心店 经济型 4.0分/5分
2           沈阳中煤宾馆 舒适型 4.5分/5分
3          红原芸谊大酒店 舒适型 4.6分/5分
4        天津逸海明珠大酒店 高档型 4.1分/5分
5        青岛康大豪生大酒店 豪华型 4.6分/5分
6         阿坝松潘松林酒店 舒适型 4.3分/5分
7    重庆运通假日酒店汽博中心店 舒适型 4.3分/5分
8     维也纳酒店南京南站汇景店 舒适型 4.4分/5分
9    厦门泊旅时尚酒店会展中心店 舒适型 4.0分/5分
Name: 酒店, dtype: object

In [87]:
df.酒店.str.extract(' (.+) ',expand=False)[:5]

0    舒适型
1    经济型
2    舒适型
3    舒适型
4    高档型
Name: 酒店, dtype: object

In [88]:
#提取酒店等级
df['酒店等级'] = df.酒店.str.extract(' (.+) ',expand=False)#+号表示的是贪婪模式，也就是所有的数据都要提取出来

In [91]:
#提取天数信息
df['天数']=df.路线名.str.extract('(\d+)天\d晚',expand=False)

In [92]:
df.head()

Unnamed: 0,出发地,目的地,价格,节省,路线名,酒店,房间,去程航司,去程方式,去程时间,回程航司,回程方式,回程时间,酒店评分,酒店等级,天数
0,哈尔滨,北海,2208.0,650.0,哈尔滨-北海3天2晚 | 入住北海祥丰嘉年华大酒店 + 春秋航空往返机票,北海祥丰嘉年华大酒店 舒适型 4.7分/5分,标准双人间(双床) 双床 不含早 1间2晚,春秋航空 9C8741,直飞,17:10-21:50,春秋航空 9C8742,直飞,10:20-15:05,4.7,舒适型,3
1,成都,泸沽湖,1145.0,376.0,成都-泸沽湖3天2晚 | 入住7天酒店丽江古城中心店 + 成都航空往返机票,7天酒店丽江古城中心店 经济型 4.0分/5分,经济房-不含早-限时特... 其他 不含早 1间2晚,成都航空 EU2237,直飞,19:45-21:20,成都航空 EU2738,直飞,23:30-01:05,4.0,经济型,3
2,广州,沈阳,2702.0,618.0,广州-沈阳3天2晚 | 入住沈阳中煤宾馆 + 南方航空/深圳航空往返机票,沈阳中煤宾馆 舒适型 4.5分/5分,大床间(内宾) 大床 双早 1间2晚,南方航空 CZ6384,直飞,08:05-11:45,深圳航空 ZH9652,经停,08:20-13:05,4.5,舒适型,3
3,上海,九寨沟,1954.0,484.0,上海-九寨沟3天2晚 | 入住红原芸谊大酒店 + 成都航空往返机票,红原芸谊大酒店 舒适型 4.6分/5分,豪华双床房[双早] 双床 双早 1间2晚,成都航空 EU6678,直飞,21:55-01:15,成都航空 EU6677,直飞,17:45-20:35,4.6,舒适型,3
4,广州,天津,1608.0,422.0,广州-天津3天2晚 | 入住天津逸海明珠大酒店 + 奥凯航空/海南航空往返机票,天津逸海明珠大酒店 高档型 4.1分/5分,豪华双床房(预付) 双床 不含早 1间2晚,奥凯航空 BK2787,直飞,06:55-10:00,海南航空 HU7201,直飞,20:15-23:25,4.1,高档型,3
