In [257]:
#Pandas官方文档:http://pandas.pydata.org/pandas-docs/stable/
#-*-author Yangami-*-
import pandas as pd
import numpy as np

# 一、基本类型

pandas包含两种数据类型：series和dataframe。
series是一种一维数据结构，每一个元素都带有一个索引，与一维数组的含义相似，其中索引可以为数字或字符串。series结构名称：

![](pandas1.png)

#### 用列表、数组和字典构建series

In [261]:
lst = list('abcedfg')   # 列表
arr = np.arange(7)                      # 数组
# 构建方法
ser1 = pd.Series(lst)
ser2 = pd.Series(arr)
#一维序列series会自动添加索引
print(ser1)
print(ser2)

0    a
1    b
2    c
3    e
4    d
5    f
6    g
dtype: object
0    0
1    1
2    2
3    3
4    4
5    5
6    6
dtype: int32


In [262]:
#构建字典转series
dic = {'及时雨':'宋江','豹子头':'林冲','花和尚':'鲁智深','浪子':'燕青'}
ser3 = pd.Series(dic)
ser3

及时雨     宋江
豹子头     林冲
花和尚    鲁智深
浪子      燕青
dtype: object

In [269]:
dict(zip(lst, arr))

{'a': 0, 'b': 1, 'c': 2, 'e': 3, 'd': 4, 'f': 5, 'g': 6}

In [270]:
dict(zip(lst, arr))
#用两序列构建字典转series
mydict = dict(zip(lst, arr))             # 字典
ser3 = pd.Series(mydict)
ser3

a    0
b    1
c    2
e    3
d    4
f    5
g    6
dtype: int64

In [271]:
#series拥有许多np.array的性质
ser1_=ser2+1
print(ser1_)
ser3.shape

0    1
1    2
2    3
3    4
4    5
5    6
6    7
dtype: int32


(7,)

In [277]:
np.array([[1,2,3],[2,5,1]]).tolist()

[[1, 2, 3], [2, 5, 1]]

In [272]:
#将series变序列索引信息会消失
ser3.tolist()

[0, 1, 2, 3, 4, 5, 6]

dataframe是一种二维数据结构，数据以表格形式（与excel类似）存储，有对应的行和列。dataframe结构名称：

![](pandas2.png)

#### 字典构建dataframe

In [278]:
#键为df的列名值为该列元素
df=pd.DataFrame({'a':[1,2,3],'b':['1','2','3']})
df

Unnamed: 0,a,b
0,1,1
1,2,2
2,3,3


In [281]:
#bug辨析（If using all scalar values, you must pass an index）
df=pd.DataFrame({'a':1,'b':2})
df

ValueError: If using all scalar values, you must pass an index

In [282]:
pd.DataFrame(dic,[0])

Unnamed: 0,及时雨,豹子头,花和尚,浪子
0,宋江,林冲,鲁智深,燕青


In [286]:
#事实上自定义index更方便操作且少出bug
airqlt=pd.DataFrame({'weather':['sunny','cloudy','cloudy'],
                     'temp':[13,17,12]},index=['2019-01-01','2019-01-02','2019-01-03'])
airqlt

Unnamed: 0,weather,temp
2019-01-01,sunny,13
2019-01-02,cloudy,17
2019-01-03,cloudy,12


dataframe取值

In [287]:
#取列
airqlt['weather']

2019-01-01     sunny
2019-01-02    cloudy
2019-01-03    cloudy
Name: weather, dtype: object

In [288]:
#取行
airqlt.loc['2019-01-01']

'sunny'

# 二、pandas读文件（IO工具）

打开csv文件

In [303]:
csvfile=pd.read_csv(open('hotel_data.csv'),index_col=0)

In [304]:
csvfile

Unnamed: 0_level_0,价格（元/晚）,地址,特点,已购人数,评分,收藏,简评,评价
名称,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
西安金莎国际酒店,420,[小寨/历史博物馆]\n长安中路65号\n\n\n地图,休闲度假,14536,4.6?,1,棒极了,交通便利
西安君乐城堡酒店,533,[钟鼓楼/回民街/市中心]\n环城南路西段12号\n\n\n地图,浪漫情侣,5164,4.4?,2,挺好哒,地理位置好
美豪丽致酒店(西安未央路店),328,[大明宫万达/大明宫遗址公园]\n未央路149号(凤城三路与未央路十字东北角)地铁2号线图书...,商务出行,1568,5.0?,3,棒极了,前台热情
维慕智能酒店(西安高铁北客站旗舰店),266,[西安高铁站火车北站/西安市政中心]\n凤城十一路与文景路十字向西50米\n\n\n地图,亲子酒店,1711,4.7?,4,棒极了,离高铁站近
西安悦豪酒店,442,[西安市高新技术开发区]\n二环南路西段180号\n\n\n地图\n\n\n街景,浪漫情侣,2396,4.6?,5,棒极了,性价比高
秦唐一号酒店(西安钟楼店),348,[钟鼓楼/回民街/市中心]\n南大街东木头市176号\n\n\n地图,亲子酒店,10342,4.7?,6,棒极了,离步行街近
如家精选酒店(西安钟楼店),256,[钟鼓楼/回民街/市中心]\n南大街8号(和西贝莜面村同一栋楼)\n\n\n地图\n\n\n街景,亲子酒店,426,4.7?,7,棒极了,在市中心
甲字精品酒店(西安钟楼回民街店),184,[钟鼓楼/回民街/市中心]\n案板街3号\n\n\n地图\n\n\n街景,商务出行,3263,4.5?,9,棒极了,性价比高
陕西世纪金源大饭店,378,[新城区]\n建工路19号\n\n\n地图\n\n\n街景,浪漫情侣,14579,4.9?,10,棒极了,服务周到
西安钟楼回民街亚朵酒店,487,[钟鼓楼/回民街/市中心]\n莲湖路23号\n\n\n地图,浪漫情侣,2485,4.8?,11,棒极了,离地铁站近


打开文本文件（.txt）

In [15]:
pd.read_csv('stockfile.txt',sep='\t')

Unnamed: 0,date,open,close,high,low,volume,money
0,2005-01-04,,,,,,
1,2005-01-05,,,,,,
2,2005-01-06,,,,,,
3,2005-01-07,,,,,,
4,2005-01-10,,,,,,
5,2005-01-11,,,,,,
6,2005-01-12,,,,,,
7,2005-01-13,,,,,,
8,2005-01-14,,,,,,
9,2005-01-17,,,,,,


打开excel

In [16]:
#excel格式并不整齐，修改header为列名的索引，修改index_col为行名的索引

In [298]:
pd.read_excel('excel_data.xls',header=2,index_col=0)#, sheet_name='Sheet1',,)

Unnamed: 0_level_0,农、林、牧、渔业,采矿业,食品、饮料制造,纺织、服装及,其他制造业,电力、热力及水的,炼焦、燃气及,化学工业,非金属矿物制品业,金属产品,机械设备,建筑业,运输仓储邮政、,批发零售贸易、,房地产业、租赁,金融业,其他服务业
产 出  投 入,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
,,,及烟草制品业,皮革产品制造业,,生产和供应业,石油加工业,,,制 造 业,制 造 业,,信息传输、计算机,住宿和餐饮业,和商务服务业,,
,,,,,,,,,,,,,服务和软件业,,,,
,,,,,,,,,,,,,,,,,
总投入,1.0,1.0,1,1,1.0,1,1,1.0,1.0,1,1,1.0,1,1,1,1.0,1.0
中间投入合计,0.413839,0.527095,0.75644,0.793246,0.691753,0.713517,0.820845,0.796884,0.725293,0.801835,0.807753,0.768606,0.505343,0.475367,0.392801,0.310545,0.511444
农、林、牧、渔业,0.140657,0.002677,0.381574,0.1019,0.069475,1.34334e-05,2.81732e-05,0.026896,0.000381,9.23928e-05,3.62248e-05,0.004134,0.00894322,0.0408878,0.00078323,,0.006057
采矿业,0.000677,0.07499,0.00358726,0.00430569,0.005812,0.112454,0.61478,0.05591,0.126775,0.134021,0.00310897,0.014215,0.00356958,0.00126586,0.000512735,,0.003477
食品、饮料制造及烟草制品业,0.096175,0.002212,0.190394,0.0249679,0.005222,0.00298013,0.00571152,0.014775,0.003372,0.00315741,0.00314934,0.003904,0.00624206,0.105266,0.00571622,0.002083,0.014067
纺织、服装及皮革产品制造业,0.000555,0.004678,0.00179312,0.434754,0.037196,0.00337495,0.00106072,0.009499,0.004742,0.00271961,0.00484032,0.004275,0.00618388,0.0110929,0.0123298,0.00232,0.015767
其他制造业,0.003005,0.011895,0.0244171,0.0164334,0.276102,0.00327559,0.00197381,0.021118,0.048075,0.0439601,0.0200983,0.022169,0.00966874,0.0174337,0.0444801,0.027266,0.053009


# 三、dataframe使用

In [305]:
#以csv文件的hotel数据为例学习df方法
hotel=csvfile

#### DF基本方法

In [306]:
#行列索引
print(hotel.columns)
hotel.index

Index(['价格（元/晚）', '地址', '特点', '已购人数', '评分', '收藏', '简评', '评价'], dtype='object')


Index(['西安金莎国际酒店', '西安君乐城堡酒店', '美豪丽致酒店(西安未央路店)', '维慕智能酒店(西安高铁北客站旗舰店)',
       '西安悦豪酒店', '秦唐一号酒店(西安钟楼店)', '如家精选酒店(西安钟楼店)', '甲字精品酒店(西安钟楼回民街店)',
       '陕西世纪金源大饭店', '西安钟楼回民街亚朵酒店',
       ...
       '芙蓉宾馆(西安凤城三路店)', '西安小满贰拾肆公寓酒店', '西安麦思尔德公寓(北大街分店)', '西安咸阳国际机场久佳意宾馆',
       '西安米朵时尚精品公寓', '西安福茂宾馆', '白蜗牛宾馆(西安草滩医学院店)', '非繁·鑫乐天酒店(西安大学城长安广场店)',
       '西安金莱主题酒店韦曲汽车南站店', '西安将军山三笙舍度假酒店'],
      dtype='object', name='名称', length=2097)

In [307]:
#取某列
hotel['已购人数'],type(hotel['已购人数'])

(名称
 西安金莎国际酒店                               14536
 西安君乐城堡酒店                                5164
 美豪丽致酒店(西安未央路店)                          1568
 维慕智能酒店(西安高铁北客站旗舰店)                      1711
 西安悦豪酒店                                  2396
 秦唐一号酒店(西安钟楼店)                          10342
 如家精选酒店(西安钟楼店)                            426
 甲字精品酒店(西安钟楼回民街店)                        3263
 陕西世纪金源大饭店                              14579
 西安钟楼回民街亚朵酒店                             2485
 美丽豪酒店(西安曲江大雁塔小寨会展中心店)                   5960
 璞隐酒店(西安大雁塔店)                            4629
 美豪酒店(西安龙首店)                             4398
 喜客五间唐中式酒店(西安大雁塔博物馆小寨会展中心店)(原小寨大雁塔店)     4501
 西安皇城豪门酒店                                9030
 西安荣民国际饭店                                7615
 丽途精选酒店(西安大雁塔曲江店)                        4836
 华辰酒店(西安钟楼东大街明城墙店)                       5502
 西安阳光国际大酒店                               4074
 西安阳光国际大酒店                               4074
 柠檬酒店(西安金花店)                             4727
 斯维登精品公寓(西安钟楼火车站)             

In [21]:
#取某行 iloc&loc
#取索引为西安永兴宾馆的行
hotel.loc['西安永兴宾馆'],type(hotel['评分'])

(价格（元/晚）                                     57
 地址         [胡家庙/长缨东路]\n长缨东路41号\n\n\n地图\n\n\n街景
 特点                                        地铁周边
 已购人数                                         9
 评分                                        3.0?
 收藏                                           3
 简评                                         一般般
 评价                                        床品舒适
 Name: 西安永兴宾馆, dtype: object, pandas.core.series.Series)

In [313]:
#取第一行
hotel.iloc[0,]

价格（元/晚）                            420
地址         [小寨/历史博物馆]\n长安中路65号\n\n\n地图
特点                                休闲度假
已购人数                             14536
评分                                 4.6
收藏                                   1
简评                                 棒极了
评价                                交通便利
Name: 西安金莎国际酒店, dtype: object

In [314]:
#更改列索引名,不改变表格内容
hotel.columns=['价格']+list(hotel.columns)[1:]

In [316]:
hotel['价格']

名称
西安金莎国际酒店                               420
西安君乐城堡酒店                               533
美豪丽致酒店(西安未央路店)                         328
维慕智能酒店(西安高铁北客站旗舰店)                     266
西安悦豪酒店                                 442
秦唐一号酒店(西安钟楼店)                          348
如家精选酒店(西安钟楼店)                          256
甲字精品酒店(西安钟楼回民街店)                       184
陕西世纪金源大饭店                              378
西安钟楼回民街亚朵酒店                            487
美丽豪酒店(西安曲江大雁塔小寨会展中心店)                  449
璞隐酒店(西安大雁塔店)                           289
美豪酒店(西安龙首店)                            300
喜客五间唐中式酒店(西安大雁塔博物馆小寨会展中心店)(原小寨大雁塔店)    278
西安皇城豪门酒店                               439
西安荣民国际饭店                               308
丽途精选酒店(西安大雁塔曲江店)                       288
华辰酒店(西安钟楼东大街明城墙店)                      152
西安阳光国际大酒店                              346
西安阳光国际大酒店                              346
柠檬酒店(西安金花店)                            272
斯维登精品公寓(西安钟楼火车站)                       240
西安紫金山大酒店                               174
西安美道酒店  

In [25]:
price=hotel['价格']
locat=hotel['地址']
score=hotel['评分']
feature=hotel['特点']

In [26]:
#异常数据处理
score[0]

'4.6?'

In [27]:
newlst=[]
for i in score:
    newlst.append(float(i[:-1]))
newlst

[4.6,
 4.4,
 5.0,
 4.7,
 4.6,
 4.7,
 4.7,
 4.5,
 4.9,
 4.8,
 4.9,
 4.9,
 4.6,
 4.8,
 4.5,
 4.6,
 4.6,
 4.5,
 4.6,
 4.6,
 4.7,
 4.7,
 4.3,
 4.7,
 4.9,
 4.7,
 4.7,
 4.9,
 4.5,
 4.9,
 4.7,
 4.7,
 5.0,
 4.7,
 4.4,
 4.2,
 4.9,
 4.9,
 4.6,
 4.5,
 4.6,
 4.8,
 4.6,
 4.9,
 4.6,
 4.7,
 4.8,
 4.7,
 4.6,
 4.6,
 5.0,
 4.6,
 4.7,
 4.8,
 4.9,
 4.5,
 4.7,
 4.8,
 4.9,
 4.9,
 4.7,
 4.7,
 4.9,
 4.9,
 4.6,
 4.6,
 4.5,
 4.4,
 4.6,
 4.9,
 4.1,
 4.2,
 4.7,
 4.5,
 4.6,
 4.5,
 4.6,
 4.6,
 4.7,
 4.6,
 4.8,
 4.3,
 4.7,
 4.5,
 4.8,
 4.5,
 4.9,
 4.5,
 4.7,
 4.4,
 4.3,
 4.8,
 4.6,
 4.7,
 4.4,
 4.6,
 5.0,
 4.8,
 4.2,
 4.9,
 4.4,
 4.9,
 4.9,
 4.7,
 4.8,
 4.6,
 4.6,
 4.7,
 4.7,
 4.8,
 4.7,
 4.8,
 4.2,
 4.5,
 4.8,
 4.9,
 4.9,
 4.9,
 4.6,
 4.7,
 4.5,
 4.7,
 4.7,
 4.8,
 4.6,
 4.8,
 5.0,
 4.5,
 4.6,
 4.9,
 4.9,
 4.9,
 4.8,
 4.8,
 4.7,
 4.9,
 4.5,
 4.9,
 4.9,
 4.8,
 4.9,
 4.4,
 4.7,
 4.9,
 4.7,
 4.5,
 4.7,
 4.6,
 4.5,
 4.5,
 4.8,
 4.6,
 4.7,
 4.9,
 4.5,
 4.8,
 4.7,
 4.5,
 4.7,
 4.6,
 4.8,
 4.7,
 4.8,
 4.2,
 4.7,
 4.5,
 4.8

In [312]:
hotel['评分']=newlst

#### 价格数据简析

In [237]:
#简单描述性分析
mean(price),np.percentile(price, [25, 50, 75])

(194.8559847401049, array([ 96., 154., 237.]))

In [321]:
tdt_dic={
    "location": {
        "lon": "116.001688",
        "level": "地名地址",
        "lat": "40.453228"
    },
    "status": "0",
    "msg": "ok",
    "searchVersion": "4.8.0"
}
tdt_dic['location']['lon'],tdt_dic['location']['lat']

('116.001688', '40.453228')

In [30]:
#计算简单相关系数
hotel[['价格','收藏','评分','已购人数']].corr()

Unnamed: 0,价格,收藏,评分,已购人数
价格,1.0,0.019743,0.249379,0.38306
收藏,0.019743,1.0,0.028583,0.015337
评分,0.249379,0.028583,1.0,0.179716
已购人数,0.38306,0.015337,0.179716,1.0


#### 位置信息计算距离指标

In [31]:
#分析位置数据（[]内为附近地标[]后为具体位置）ps:
locat[0]

'[小寨/历史博物馆]\n长安中路65号\n\n\n地图'

![,](携程网站.png)

In [32]:
locat[0][1:locat[0].find(']')]

'小寨/历史博物馆'

In [33]:
locat[0][1:locat[0].find(']')].split('/')

['小寨', '历史博物馆']

In [34]:
#具体位置
locat[0].split('\n'),locat[0].split('\n')[1]

(['[小寨/历史博物馆]', '长安中路65号', '', '', '地图'], '长安中路65号')

In [35]:
#嵌入循环
centers=[]
htl_loc=[]
for i in range(len(locat)):
    centers.append(locat[i][1:locat[i].find(']')].split('/'))
    htl_loc.append(locat[i].split('\n')[1])

In [36]:
centers,htl_loc

([['小寨', '历史博物馆'],
  ['钟鼓楼', '回民街', '市中心'],
  ['大明宫万达', '大明宫遗址公园'],
  ['西安高铁站火车北站', '西安市政中心'],
  ['西安市高新技术开发区'],
  ['钟鼓楼', '回民街', '市中心'],
  ['钟鼓楼', '回民街', '市中心'],
  ['钟鼓楼', '回民街', '市中心'],
  ['新城区'],
  ['钟鼓楼', '回民街', '市中心'],
  ['电视塔', '国展中心'],
  ['大雁塔', '曲江旅游区'],
  ['北关', '龙首村'],
  ['大雁塔', '曲江旅游区'],
  ['钟鼓楼', '回民街', '市中心'],
  ['钟鼓楼', '回民街', '市中心'],
  ['大雁塔', '曲江旅游区'],
  ['钟鼓楼', '回民街', '市中心'],
  ['钟鼓楼', '回民街', '市中心'],
  ['钟鼓楼', '回民街', '市中心'],
  ['城东', '西京医院', '小商品批发市场'],
  ['钟鼓楼', '回民街', '市中心'],
  ['钟鼓楼', '回民街', '市中心'],
  ['西安市高新技术开发区'],
  ['西安高铁站火车北站', '西安市政中心'],
  ['钟鼓楼', '回民街', '市中心'],
  ['钟鼓楼', '回民街', '市中心'],
  ['钟鼓楼', '回民街', '市中心'],
  ['钟鼓楼', '回民街', '市中心'],
  ['城东', '西京医院', '小商品批发市场'],
  ['小寨', '历史博物馆'],
  ['电视塔', '国展中心'],
  ['高新管委会', '绿地会展中心'],
  ['大雁塔', '曲江旅游区'],
  ['城东', '西京医院', '小商品批发市场'],
  ['西稍门', '机场大巴站'],
  ['市图书馆', '凤城二路'],
  ['大明宫万达', '大明宫遗址公园'],
  ['城南', '李家村万达广场'],
  ['钟鼓楼', '回民街', '市中心'],
  ['钟鼓楼', '回民街', '市中心'],
  ['西安高铁站火车北站', '西安市政中心'],
  ['小寨', '历史博物馆'],
  ['钟鼓楼', '

地标取平均经纬度，具体位置取经纬度

In [239]:
#高德/百度/天地图获取经纬度
import requests
def geocodeG(address):
    par = {'address': address, 'key': 'cb649a25c1f81c1451adbeca73623251'}
    base = 'http://restapi.amap.com/v3/geocode/geo'
    response = requests.get(base, par)
    answer = response.json()
    GPS=answer['geocodes'][0]['location'].split(",")
    return GPS[0],GPS[1]
def geocodeB(address):
    ak='nAhF2RDAVOYEp6prqiNg9HamkZ3zGiSr'#百度http://lbsyun.baidu.com/申请ak
    
    base = "http://api.map.baidu.com/geocoder/v2/?address=" + address + "&output=json&ak="
    response = requests.get(base+ak)
    answer = response.json()
    return answer['result']['location']['lng'],answer['result']['location']['lat']
def geocodeD(address):
    ak='09ddeac833d7ed2d43e1bfa978df2faf'#天地图http://lbs.tianditu.gov.cn/server/geocodinginterface.html
    base='http://api.tianditu.gov.cn/geocoder?ds={"keyWord":"'+address+'"}&tk='
    response = requests.get(base+ak)
    answer = response.json()
    return answer['location']['lon'],answer['location']['lat']


In [248]:
from math import radians, cos, sin, asin, sqrt

#计算两点间距离-km
def Distance(lng1,lat1,lng2,lat2):
    lng1, lat1, lng2, lat2 = map(radians, [lng1, lat1, lng2, lat2])
    dlon=lng2-lng1
    dlat=lat2-lat1
    a=sin(dlat/2)**2 + cos(lat1) * cos(lat2) * sin(dlon/2)**2 
    dis=2*asin(sqrt(a))*6371
    return dis

In [249]:
#test
geocodeG('小寨'),geocodeG('历史博物馆'),geocodeG('小寨,历史博物馆')

(('109.023056', '34.275948'),
 ('118.405998', '37.057858'),
 ('114.898956', '36.848186'))

In [250]:
#test
geocodeG('钟鼓楼')

IndexError: list index out of range

In [251]:
#计算酒店与中心地距离 计算前五十个示例
dist=[]
for i in zip(centers[:50],htl_loc[:50]):
    l=[]
    for c in i[0]:
        try:
            l.append(geocodeG(c)) 
        except:
            pass
    if len(l)==0:
        continue
    #观察数组形式经纬度
    print(np.array([[float(j[0]),float(j[1])] for j in l]))
    center=np.mean(np.array([[float(j[0]),float(j[1])] for j in l]),axis=0)        
    try:
        loc=[float(_) for _ in geocodeG(i[1])]
    except:
        continue
    print(center[1],center[0],loc[1],loc[0])
    dist.append(Distance(center[1],center[0],loc[1],loc[0]))
    print(i)

[[109.023056  34.275948]
 [118.405998  37.057858]]
35.666903000000005 113.714527 34.226567 108.947716
(['小寨', '历史博物馆'], '长安中路65号')
[[111.726574  40.775756]
 [103.7481    29.559998]]
35.167877000000004 107.737337 34.24884 108.945099
(['钟鼓楼', '回民街', '市中心'], '环城南路西段12号')
[[108.972244  34.314186]
 [109.744057  34.385696]]
34.349941 109.3581505 40.454839 124.065612
(['大明宫万达', '大明宫遗址公园'], '未央路149号(凤城三路与未央路十字东北角)地铁2号线图书馆站A口')
[[108.947     34.292   ]
 [108.940174  34.341568]]
[[108.906382  34.233743]]
34.233743 108.906382 34.241371 108.902344
(['西安市高新技术开发区'], '二环南路西段180号')
[[111.726574  40.775756]
 [103.7481    29.559998]]
35.167877000000004 107.737337 28.241402 117.178024
(['钟鼓楼', '回民街', '市中心'], '南大街东木头市176号')
[[111.726574  40.775756]
 [103.7481    29.559998]]
35.167877000000004 107.737337 34.256149 108.947182
(['钟鼓楼', '回民街', '市中心'], '南大街8号(和西贝莜面村同一栋楼)')
[[111.726574  40.775756]
 [103.7481    29.559998]]
35.167877000000004 107.737337 34.260342 108.950821
(['钟鼓楼', '回民街', '市中心'], '案板街3号')
[[10

In [252]:
#将前50个样本提取出来作为新数据
newdata=pd.DataFrame(hotel.iloc[:len(dist),])

In [253]:
#为新数据增添距离属性（新增列）
newdata['dist']=dist

In [254]:
newdata

Unnamed: 0_level_0,价格,地址,特点,已购人数,评分,收藏,简评,评价,dist
名称,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
西安金莎国际酒店,420,[小寨/历史博物馆]\n长安中路65号\n\n\n地图,休闲度假,14536,4.6,1,棒极了,交通便利,533.199154
西安君乐城堡酒店,533,[钟鼓楼/回民街/市中心]\n环城南路西段12号\n\n\n地图,浪漫情侣,5164,4.4,2,挺好哒,地理位置好,138.089391
美豪丽致酒店(西安未央路店),328,[大明宫万达/大明宫遗址公园]\n未央路149号(凤城三路与未央路十字东北角)地铁2号线图书...,商务出行,1568,5.0,3,棒极了,前台热情,1661.613021
维慕智能酒店(西安高铁北客站旗舰店),266,[西安高铁站火车北站/西安市政中心]\n凤城十一路与文景路十字向西50米\n\n\n地图,亲子酒店,1711,4.7,4,棒极了,离高铁站近,0.526426
西安悦豪酒店,442,[西安市高新技术开发区]\n二环南路西段180号\n\n\n地图\n\n\n街景,浪漫情侣,2396,4.6,5,棒极了,性价比高,1088.494685
秦唐一号酒店(西安钟楼店),348,[钟鼓楼/回民街/市中心]\n南大街东木头市176号\n\n\n地图,亲子酒店,10342,4.7,6,棒极了,离步行街近,138.255879
如家精选酒店(西安钟楼店),256,[钟鼓楼/回民街/市中心]\n南大街8号(和西贝莜面村同一栋楼)\n\n\n地图\n\n\n街景,亲子酒店,426,4.7,7,棒极了,在市中心,138.616664
甲字精品酒店(西安钟楼回民街店),184,[钟鼓楼/回民街/市中心]\n案板街3号\n\n\n地图\n\n\n街景,商务出行,3263,4.5,9,棒极了,性价比高,1398.818245
陕西世纪金源大饭店,378,[新城区]\n建工路19号\n\n\n地图\n\n\n街景,浪漫情侣,14579,4.9,10,棒极了,服务周到,137.866365
西安钟楼回民街亚朵酒店,487,[钟鼓楼/回民街/市中心]\n莲湖路23号\n\n\n地图,浪漫情侣,2485,4.8,11,棒极了,离地铁站近,892.749728


In [255]:
newdata[['价格','收藏','评分','已购人数','dist']].corr()

Unnamed: 0,价格,收藏,评分,已购人数,dist
价格,1.0,-0.141047,0.148029,0.289808,-0.111519
收藏,-0.141047,1.0,0.024862,-0.052266,0.068849
评分,0.148029,0.024862,1.0,-0.022773,0.008869
已购人数,0.289808,-0.052266,-0.022773,1.0,-0.273764
dist,-0.111519,0.068849,0.008869,-0.273764,1.0


In [256]:
mean(dist)

543.7711528619449