In [1]:
from pylab import mpl
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use('ggplot')
mpl.rcParams['font.sans-serif'] = ['SimHei']  # 解决seaborn中文字体显示问题
plt.rc('figure', figsize=(10, 10))  # 把plt默认的图片size调大一点
# 解决保存图像是负号'-'显示为方块的问题
plt.rcParams["figure.dpi"] = mpl.rcParams['axes.unicode_minus'] = False
%matplotlib inline

In [2]:
place_data = pd.read_csv('data/flypig.csv',
                 names=['city', 'title', 'soldRecentNum', 'discountPrice', 'price'])

In [3]:
place_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58551 entries, 0 to 58550
Data columns (total 5 columns):
city             58551 non-null object
title            58551 non-null object
soldRecentNum    58551 non-null int64
discountPrice    58551 non-null float64
price            58551 non-null float64
dtypes: float64(2), int64(1), object(2)
memory usage: 2.2+ MB


In [4]:
place_data.sample(5)

Unnamed: 0,city,title,soldRecentNum,discountPrice,price
7238,常州,【今日可用】常州茅山宝盛园大门票茅山宝盛园电子成人票,0,70.0,70.0
13532,湖州,安吉中南百草原景区 成人票电子票 含动物园植物园四大表演,0,130.0,130.0
55083,上海,当日可订 上海环球金融中心门票94+97+100+夜游浦江游船景点联票,3,228.0,228.0
5040,哈尔滨,黑龙江旅游哈尔滨松花江索道往返温泉门票特色游玩亲子游度假旅行,0,148.0,148.0
50037,安康,西安门票 汉江燕翔洞景区门票 汉江燕翔洞生态旅游 燕翔洞电子票,13,80.0,80.0


# 数据清洗

**判断是否存在重复行，有则去除**

In [5]:
place_data[place_data.duplicated()]

Unnamed: 0,city,title,soldRecentNum,discountPrice,price
80,石家庄,河北石家庄黄金寨景区门票 平山黄金寨景区电子票套票,0,125.0,125.0
83,石家庄,荣鼎天下萌宠奇缘_石家庄萌宠奇缘门票 石家庄周边游,0,118.0,118.0
219,石家庄,河北 石家庄 红崖谷 大门票,0,64.0,64.0
221,石家庄,bei guo 水世界 门票,0,166.0,166.0
222,石家庄,bei guo shui shi jie 石家庄,0,166.0,166.0
223,石家庄,zhu juan gou 生态风景区 大门票,0,28.0,28.0
229,石家庄,xi bu 长青水上乐园 大门票,0,79.0,79.0
232,石家庄,河北 石家庄 鼎峰汗蒸世界 大门票,0,57.9,57.9
365,石家庄,王母山风景区,4,49.0,49.0
511,唐山,kai luan 国家矿山公园 博物馆+井下探秘游+4D电影 河北 唐山,0,109.8,109.8


In [6]:
place_data.drop_duplicates(inplace=True)

In [7]:
place_data[place_data.duplicated()]

Unnamed: 0,city,title,soldRecentNum,discountPrice,price


**将省份与城市关联**

In [9]:
city_data = pd.read_csv('data/city_data.csv')

In [10]:
city_data.head()

Unnamed: 0,city,province
0,石家庄,河北省
1,邯郸,河北省
2,唐山,河北省
3,保定,河北省
4,秦皇岛,河北省


In [12]:
data_final = place_data.merge(city_data, on='city')

In [20]:
data_final.sample(5)

Unnamed: 0,city,title,soldRecentNum,discountPrice,price,province
4311,吉林,长春银河汇沐浴宾馆单人女士美体SPA套餐B,0,199.0,199.0,吉林省
33000,深圳,【电子票 含夜场】深圳锦绣中华民俗文化村门票 锦绣中华门票,37,185.0,188.0,广东省
44260,成都,换花季 四川 成都 漫花庄园 大门票 电子票 大小同价票,0,35.0,35.0,四川省
24434,烟台,【官方现票】烟台蓬莱八仙过海门票 八仙渡门票 现票 可订当天,0,70.0,70.0,山东省
10661,杭州,杭州京杭大运河手工艺活态馆古法造纸亲子体验,0,45.0,45.0,浙江省


# 问题
1. 哪些城市/省份的旅游选择最多？
2. 哪些城市最受游客青睐？
3. 最热门的景点
4. 各省份的好评热门景点
5. 很热门但是评分不好的景点
6. 打折力度最大的景点
7. 各级别景区的门票价格

#### 1. 哪些城市/省份的旅游选择最多？

In [47]:
count_city_top15 = data_final['city'].value_counts()[:15]
count_city_top15

三亚    3060
杭州    2333
北京    1763
上海    1719
桂林    1660
广州    1594
厦门    1194
苏州    1046
香港    1020
成都     966
清远     920
重庆     860
常州     842
武汉     781
澳门     727
Name: city, dtype: int64

In [49]:
from pyecharts import options as opts
from pyecharts.charts import Funnel, Page

funnel = (
    Funnel()
    .add("", [tuple(z) for z in zip(count_city_top15.index.tolist(),count_city_top15.values.tolist())])
    .set_global_opts(title_opts=opts.TitleOpts(title="旅游选择最多的15座城市",pos_bottom=True))
)
funnel.render_notebook()

In [51]:
count_province = data_final['province'].value_counts()
count_province

浙江省         6098
广东省         5639
江苏省         4717
海南省         4063
山东省         3542
福建省         3361
湖北省         2661
广西壮族自治区     2588
安徽省         1908
北京市         1763
四川省         1757
上海市         1719
云南省         1706
河北省         1663
辽宁省         1622
江西省         1427
河南省         1396
陕西省         1377
香港          1020
湖南省          989
甘肃省          867
重庆市          860
澳门           727
黑龙江省         708
贵州省          566
吉林省          502
山西省          460
天津市          453
宁夏回族自治区      330
内蒙古自治区       265
西藏自治区        188
台湾           156
新疆维吾尔自治区     151
青海省           47
Name: province, dtype: int64

In [55]:
province = [pro.replace('省', '') for pro in list(count_province.index)]
province = [pro.replace('市', '') for pro in province]
province = [pro.replace('新疆维吾尔自治区', '新疆') for pro in province]
province = [pro.replace('宁夏回族自治区', '宁夏') for pro in province]
province = [pro.replace('内蒙古自治区', '内蒙古') for pro in province]
province = [pro.replace('西藏自治区', '西藏') for pro in province]
province = [pro.replace('广西壮族自治区', '广西') for pro in province]
province

['浙江',
 '广东',
 '江苏',
 '海南',
 '山东',
 '福建',
 '湖北',
 '广西',
 '安徽',
 '北京',
 '四川',
 '上海',
 '云南',
 '河北',
 '辽宁',
 '江西',
 '河南',
 '陕西',
 '香港',
 '湖南',
 '甘肃',
 '重庆',
 '澳门',
 '黑龙江',
 '贵州',
 '吉林',
 '山西',
 '天津',
 '宁夏',
 '内蒙古',
 '西藏',
 '台湾',
 '新疆',
 '青海']

In [64]:
from pyecharts import options as opts
from pyecharts.charts import Map

map = (
    Map()
    .add("", [tuple(z) for z in zip(province, count_province.tolist())], "china")
    .set_global_opts(
        title_opts=opts.TitleOpts(title="全国各省份旅游选择数量图"),
        visualmap_opts=opts.VisualMapOpts(max_=6500, is_piecewise=True),
    )
)


map.render_notebook()

#### 2. 哪些城市最受游客青睐？

In [67]:
city_sale_top10 = data_final.groupby('city')['soldRecentNum'].sum().nlargest(10)
city_sale_top10

city
上海    456346
北京    196538
广州    187137
杭州    183442
香港    178075
成都     79245
武汉     67638
苏州     63906
西安     63220
南京     61491
Name: soldRecentNum, dtype: int64

In [69]:
from pyecharts.charts import Bar
from pyecharts import options as opts
bar = (
    Bar()
    .add_xaxis(list(city_sale_top10.index))
    .add_yaxis("", city_sale_top10.tolist())
    .reversal_axis()
    .set_series_opts(label_opts=opts.LabelOpts(position="right"))
    .set_global_opts(title_opts=opts.TitleOpts(title="最近一个月售出门票Top10城市"))
)
bar.render_notebook()