In [1]:
from pylab import mpl
import pandas as pd
import numpy as np

In [2]:
place_data = pd.read_csv('data/flypig.csv',
                 names=['city', 'title', 'soldRecentNum', 'discountPrice', 'price'])

In [3]:
place_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58551 entries, 0 to 58550
Data columns (total 5 columns):
city             58551 non-null object
title            58551 non-null object
soldRecentNum    58551 non-null int64
discountPrice    58551 non-null float64
price            58551 non-null float64
dtypes: float64(2), int64(1), object(2)
memory usage: 2.2+ MB


In [4]:
place_data.sample(5)

Unnamed: 0,city,title,soldRecentNum,discountPrice,price
26845,郑州,河南郑州嵩山少林寺门票常住院、塔林、达摩洞、初祖庵、三皇寨等,157,80.0,80.0
20772,泉州,【急速发码】福建泉州北溪文苑生态旅游区大门票 旅游景点门票L,0,45.0,45.0
44803,成都,【即刻出票】成都温江国色天乡国色天香二期水上乐园夜场票门套票,4,56.0,56.0
5128,哈尔滨,英杰温泉成人套票（含6项）,0,138.0,138.0
55388,上海,上海秋水怡人汗蒸汤池 “迎五一”限时抢购单人小龙虾套餐,0,128.0,128.0


# 数据清洗

**判断是否存在重复行，有则去除**

In [5]:
place_data[place_data.duplicated()]

Unnamed: 0,city,title,soldRecentNum,discountPrice,price
80,石家庄,河北石家庄黄金寨景区门票 平山黄金寨景区电子票套票,0,125.0,125.0
83,石家庄,荣鼎天下萌宠奇缘_石家庄萌宠奇缘门票 石家庄周边游,0,118.0,118.0
219,石家庄,河北 石家庄 红崖谷 大门票,0,64.0,64.0
221,石家庄,bei guo 水世界 门票,0,166.0,166.0
222,石家庄,bei guo shui shi jie 石家庄,0,166.0,166.0
223,石家庄,zhu juan gou 生态风景区 大门票,0,28.0,28.0
229,石家庄,xi bu 长青水上乐园 大门票,0,79.0,79.0
232,石家庄,河北 石家庄 鼎峰汗蒸世界 大门票,0,57.9,57.9
365,石家庄,王母山风景区,4,49.0,49.0
511,唐山,kai luan 国家矿山公园 博物馆+井下探秘游+4D电影 河北 唐山,0,109.8,109.8


In [6]:
place_data.drop_duplicates(inplace=True)

In [7]:
place_data[place_data.duplicated()]

Unnamed: 0,city,title,soldRecentNum,discountPrice,price


**将省份与城市关联**

In [8]:
city_data = pd.read_csv('data/city_data.csv')

In [9]:
city_data.head()

Unnamed: 0,city,province
0,石家庄,河北省
1,邯郸,河北省
2,唐山,河北省
3,保定,河北省
4,秦皇岛,河北省


In [10]:
data_final = place_data.merge(city_data, on='city')

In [11]:
data_final.sample(5)

Unnamed: 0,city,title,soldRecentNum,discountPrice,price,province
15381,丽水,浙江丽水 古堰画乡门票 双程船票,6,45.0,45.0,浙江省
57249,阿勒泰,新疆喀纳斯旅游 禾木区间车优惠票,0,26.0,26.0,新疆维吾尔自治区
18714,厦门,厦门胡里山炮台门票 4A景区,0,21.0,21.0,福建省
20115,三明,福建三明侠天下旅游区 侠天下门票+游船+玻璃天桥 电子票,0,168.0,168.0,福建省
45754,铜仁,贵州铜仁九龙洞温泉 成人票 儿童票 电子票 随买随进,4,138.0,138.0,贵州省


# 问题
1. 哪些城市/省份的旅游选择最多？
2. 哪些城市最受游客青睐？
3. 最热门的景点
4. 打折力度最大的景点

#### 1. 哪些城市/省份的旅游选择最多？

In [12]:
count_city_top15 = data_final['city'].value_counts()[:15]
count_city_top15

三亚    3060
杭州    2333
北京    1763
上海    1719
桂林    1660
广州    1594
厦门    1194
苏州    1046
香港    1020
成都     966
清远     920
重庆     860
常州     842
武汉     781
澳门     727
Name: city, dtype: int64

In [13]:
from pyecharts import options as opts
from pyecharts.charts import Funnel, Page

funnel = (
    Funnel()
    .add("", [tuple(z) for z in zip(count_city_top15.index.tolist(),count_city_top15.values.tolist())])
    .set_global_opts(title_opts=opts.TitleOpts(title="旅游选择最多的15座城市",pos_bottom=True))
)
funnel.render_notebook()

In [14]:
count_province = data_final['province'].value_counts()
count_province

浙江省         6098
广东省         5639
江苏省         4717
海南省         4063
山东省         3542
福建省         3361
湖北省         2661
广西壮族自治区     2588
安徽省         1908
北京市         1763
四川省         1757
上海市         1719
云南省         1706
河北省         1663
辽宁省         1622
江西省         1427
河南省         1396
陕西省         1377
香港          1020
湖南省          989
甘肃省          867
重庆市          860
澳门           727
黑龙江省         708
贵州省          566
吉林省          502
山西省          460
天津市          453
宁夏回族自治区      330
内蒙古自治区       265
西藏自治区        188
台湾           156
新疆维吾尔自治区     151
青海省           47
Name: province, dtype: int64

In [15]:
province = [pro.replace('省', '') for pro in list(count_province.index)]
province = [pro.replace('市', '') for pro in province]
province = [pro.replace('新疆维吾尔自治区', '新疆') for pro in province]
province = [pro.replace('宁夏回族自治区', '宁夏') for pro in province]
province = [pro.replace('内蒙古自治区', '内蒙古') for pro in province]
province = [pro.replace('西藏自治区', '西藏') for pro in province]
province = [pro.replace('广西壮族自治区', '广西') for pro in province]
province

['浙江',
 '广东',
 '江苏',
 '海南',
 '山东',
 '福建',
 '湖北',
 '广西',
 '安徽',
 '北京',
 '四川',
 '上海',
 '云南',
 '河北',
 '辽宁',
 '江西',
 '河南',
 '陕西',
 '香港',
 '湖南',
 '甘肃',
 '重庆',
 '澳门',
 '黑龙江',
 '贵州',
 '吉林',
 '山西',
 '天津',
 '宁夏',
 '内蒙古',
 '西藏',
 '台湾',
 '新疆',
 '青海']

In [16]:
from pyecharts import options as opts
from pyecharts.charts import Map

map = (
    Map()
    .add("", [tuple(z) for z in zip(province, count_province.tolist())], "china")
    .set_global_opts(
        title_opts=opts.TitleOpts(title="全国各省份旅游选择数量图"),
        visualmap_opts=opts.VisualMapOpts(max_=6500, is_piecewise=True),
    )
)


map.render_notebook()

#### 2. 哪些城市最受游客青睐？

In [17]:
city_sale_top10 = data_final.groupby('city')['soldRecentNum'].sum().nlargest(10)
city_sale_top10

city
上海    456346
北京    196538
广州    187137
杭州    183442
香港    178075
成都     79245
武汉     67638
苏州     63906
西安     63220
南京     61491
Name: soldRecentNum, dtype: int64

In [18]:
from pyecharts.charts import Bar
from pyecharts import options as opts
bar = (
    Bar()
    .add_xaxis(list(city_sale_top10.index))
    .add_yaxis("数量", city_sale_top10.tolist())
    .reversal_axis()
    .set_series_opts(label_opts=opts.LabelOpts(position="right"))
    .set_global_opts(title_opts=opts.TitleOpts(title="最近一个月售出门票Top10城市"))
)
bar.render_notebook()

#### 3. 最热门的景点

In [19]:
data_final.sort_values(by='soldRecentNum',ascending=False)[:15][['title','soldRecentNum']]

Unnamed: 0,title,soldRecentNum
52819,上海迪士尼度假区,210419
9940,灵隐飞来峰,86945
55398,香港迪士尼乐园,73211
50603,故宫博物院,42791
31322,广州长隆水上乐园,36828
31321,广州长隆野生动物世界,29794
35152,珠海长隆海洋王国,29147
52820,东方明珠广播电视塔,25627
43130,东方明珠广播电视塔,25541
43610,成都大熊猫繁育研究基地,20479


In [20]:
from pyecharts.charts import Bar
from pyecharts import options as opts
top10_popular = ['上海迪士尼乐园', '灵隐飞来峰', '广州长隆', '香港迪士尼乐园', '东方明珠广播电视塔',
                 '故宫博物院', '珠海长隆', '成都大熊猫繁育研究基地', '北京世界园艺博览会', '上海野生动物园']
top10_popular_values = [210419+17999, 86945, 36828+29794 +
                        16135, 73211, 25627+25541, 42791, 29147, 20479, 20016, 19613]


bar = (
    Bar()
    .add_xaxis(top10_popular)
    .add_yaxis("数量", top10_popular_values, category_gap="50%")
    .set_global_opts(title_opts=opts.TitleOpts(title="最热门的Top10景点"),
                     xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)))
)
bar.render_notebook()

#### 4. 当前打折力度最大的景区

In [21]:
data_final.sample(5)

Unnamed: 0,city,title,soldRecentNum,discountPrice,price,province
13807,舟山,印象普陀实景表演 普陀山印象普陀 印象普陀门票 舟山门票,0,170.0,170.0,浙江省
22299,上饶,鄱阳湖湿地公园大门票 电子票 江西著名旅游景区,0,58.0,58.0,江西省
22022,赣州,石城县云海阁洗浴中心 门票+泰式按摩,0,218.0,218.0,江西省
27272,焦作,河南 焦作 焦作云台山 大门票 L,0,185.0,185.0,河南省
39228,河池,洞天酒海景区,3,94.0,94.0,广西壮族自治区


In [22]:
data_final['discount'] = np.round(
    (1-(data_final['price']-data_final['discountPrice'])/data_final['price'])*10, 1)

In [23]:
data_final.sample(5)

Unnamed: 0,city,title,soldRecentNum,discountPrice,price,province,discount
21288,福安,福建 宁德 福安白云山 大门票+往返观光车 福安白云山门票L,0,74.0,74.0,福建省,10.0
22096,上饶,江西婺源门票通票 婺源旅游 婺源门票 含12个景点 电子票,22,158.0,158.0,江西省,10.0
20963,武夷山,武夷山门票 武夷山景区门票 武夷山景区三联票含 九曲溪 竹筏漂流,90,355.0,355.0,福建省,10.0
52316,北京,北京丽轩水疗会 洗浴门票+搓澡+足疗 店内消费足疗、需登记身份证,0,219.0,219.0,北京市,10.0
8265,无锡,江苏无锡宜兴竹海门票 宜兴竹海风景区门票 成人票 电子票,0,65.0,65.0,江苏省,10.0


In [24]:
dis_data = data_final.sort_values(
    by='discount')[['discountPrice', 'price', 'discount', 'title', 'city']]

In [25]:
dis_data.head(15)

Unnamed: 0,discountPrice,price,discount,title,city
25424,1.0,90.0,0.1,【平日票1元抢】山东旅游济宁尼山圣境景区大门票含孔庙每天限5张,济宁
35061,13.5,50.0,2.7,ZM【直连电子票】广东东莞南社明清古村落成人儿童老人观光大门票,东莞
35709,27.0,100.0,2.7,ZM【直连电子票】 广东中山詹园 成人儿童老人亲子观光旅游大门票,中山
35441,14.0,50.0,2.8,ZM【直连电子票】广东 珠海农科奇观 成人儿童观光旅游大门票,珠海
35213,598.0,1980.0,3.0,【598元/10次卡】超值钜惠 珠海海泉湾海洋温泉10次卡 可4人使用,珠海
32396,31.0,100.0,3.1,ZM【8点半前可定】广东 广州岭南印象园 成人亲子观光旅游大门票,广州
33476,34.5,100.0,3.4,ZY【提前1小时下单】广东 清远田野绿世界 成人儿童老人大门票,清远
44046,18.0,53.1,3.4,【双人特价 电子票】成都大熊猫基地门票成都大熊猫繁育研究基地,成都
33653,33.9,100.0,3.4,ZY【直连电子票】广东清远九龙峰林小镇 成人儿童老人门票,清远
41306,118.0,338.0,3.5,三亚水稻国家公园（景观门票+田野狂欢演出+电瓶车）套票旅游佳境,三亚


**折扣力度最大的五座城市**

In [26]:
dis_data[dis_data['discount']<7].groupby('city')['title'].count().nlargest(5)

city
桂林    28
三亚    20
上海    16
成都    10
香港    10
Name: title, dtype: int64