# 获取数据

## 包括以下几个方面：
    1，大众点评关于幼教机构的机构信息，用户评论信息。
    2，西安市各地区人口信息。   
    3，西安各地区经济信息。  
    4，西安各地区小学数量。  
    等。

# 一，大众点评信息的获取

手段：基于python的网络爬虫。应用request，beautiful等库，构建用户代理池等反爬取手段，获取信息存储至Mysql数据库。  
遇到困难：  
1，大众点评会封掉短时间内访问过多的ip。解决办法：购买稳定网络代理。设置随机生成的爬取间隔，缺点是导致爬取效率较低.  
2，评论中有部分emoji表情等内容无法存储。解决办法：正则表达式暴力删掉，或更改数据库的存储字符。  
3，部分信息不完全，店铺页面格式不同。 解决办法：爬取时判断，没有的信息用占位符号代替。  
4，多次访问后，大众点评需要输入验证码。解决办法：检测输入验证码的页面，终止程序并手动输入。设计断点续传程序方便下次继续。  

从点评信息中可以获取的内容：  
各地区机构的数量  
各地区机构的总体评价  
等

## 截图展示

### （1）， 大众点评爬虫

![大众点评爬虫](./截图展示/爬虫展示.png)

### （2）数据库字段设计

### 2.1店铺信息表

#### 字段设计
![店铺信息表](./截图展示/shopinfo.png)

#### 内容展示
![店铺信息表内容](./截图展示/Infocontent.png)

### 2.2店铺评分统计表

#### 字段设计
![店铺评分](./截图展示/shoprank.png)

#### 内容展示
![店铺评分](./截图展示/rankcontent.png)

### 2.3店铺评论表

#### 字段设计
![评论表](./截图展示/shopcomment.png)

#### 内容展示
![评论表](./截图展示/commentcontent.png)

# 二，西安各地区人口获取

数据来源：西安市统计局

In [10]:
XianPopulation = {
    '西安':883.21
    }
areaPopulation ={
        '新城区':60.91,
        '碑林区':63.87,
        '莲湖区':72.23,
        '灞桥区':62.73,
        '未央区':85.08,
        '雁塔区':123.11,
        '阎良区':29.08,
        '临潼区':68.18,
        '长安区':114.11,
        '高陵区':35.11,
        '鄠邑区':57.44,
        '蓝田县':52.86,
        '周至县':58.50,
    }

In [86]:
import pandas as pd

In [87]:
dfa = pd.DataFrame(pandas.Series(areaPopulation))

In [44]:
dfa.rename(columns={0:'人口'},inplace=True)

In [45]:
DataFrameOfXianAreaPopulation = dfa
DataFrameOfXianAreaPopulation

Unnamed: 0,人口
临潼区,68.18
周至县,58.5
新城区,60.91
未央区,85.08
灞桥区,62.73
碑林区,63.87
莲湖区,72.23
蓝田县,52.86
鄠邑区,57.44
长安区,114.11


In [48]:
DataFrameOfXianAreaPopulation.sum(axis=0)

人口    883.21
dtype: float64

# 三，西安各地区经济信息

### 各区县经济

In [51]:
XianEconomy = {
    '全市':{
        'GDP(亿元)':6257.18,
        '增速':8.5
    }
}
XianareaEconomy = {
    '新城区':{
        'GDP(亿元)':540.66,
        '增速':8.2
    },
    '碑林区':{
        'GDP(亿元)':741.68,
        '增速':8.5
    },
    '莲湖区':{
        'GDP(亿元)':621.91,
        '增速':8.0
    },
    '灞桥区':{
        'GDP(亿元)':329.78,
        '增速':9.6
    },
    '未央区':{
        'GDP(亿元)':772.88,
        '增速':8.7
    },
    '雁塔区':{
        'GDP(亿元)':1235.43,
        '增速':8.0
    },
    '阎良区':{
        'GDP(亿元)':193.94,
        '增速':2.3
    },
    '临潼区':{
        'GDP(亿元)':183.11,
        '增速':4.2
    },
    '长安区':{
        'GDP(亿元)':608.02,
        '增速':12.0
    },
    '高陵区':{
        'GDP(亿元)':300.24,
        '增速':7.3
    },
    '鄠邑区':{
        'GDP(亿元)':162.81,
        '增速':8.5
    },
    '蓝田县':{
        'GDP(亿元)':122.44,
        '增速':8.2
    },
    '周至县':{
        'GDP(亿元)':114.99,
        '增速':8.2
    },
}

In [88]:
dfE = pd.DataFrame(XianareaEconomy)

In [80]:
dfE

Unnamed: 0,临潼区,周至县,新城区,未央区,灞桥区,碑林区,莲湖区,蓝田县,鄠邑区,长安区,阎良区,雁塔区,高陵区
GDP(亿元),183.11,114.99,540.66,772.88,329.78,741.68,621.91,122.44,162.81,608.02,193.94,1235.43,300.24
增速,4.2,8.2,8.2,8.7,9.6,8.5,8.0,8.2,8.5,12.0,2.3,8.0,7.3


In [81]:
dfE['全市'] = dfE.sum(axis=1)

In [82]:
dfE.loc['增速',['全市']] = 8.5

In [83]:
dfE

Unnamed: 0,临潼区,周至县,新城区,未央区,灞桥区,碑林区,莲湖区,蓝田县,鄠邑区,长安区,阎良区,雁塔区,高陵区,全市
GDP(亿元),183.11,114.99,540.66,772.88,329.78,741.68,621.91,122.44,162.81,608.02,193.94,1235.43,300.24,5927.89
增速,4.2,8.2,8.2,8.7,9.6,8.5,8.0,8.2,8.5,12.0,2.3,8.0,7.3,8.5


### 产业经济统计

In [92]:
XianChanyeEconomy = {
    '第一产业':{
        "绝对值":232.01,
        "增长率":3.8
    },
     '第二产业':{
        "绝对值":2197.81,
        "增长率":8.6
    },
     '第三产业':{
        "绝对值":3827.36,
        "增长率":8.8,
    }
}
ThirdEconomy = {
    '交通运输仓储邮政':{
        '绝对值':293.65,
        "增长率":8.1
    },
    '批发和零售':{
        '绝对值':706.23,
        "增长率":5.4
    },
    '住宿和餐饮':{
        '绝对值':169.79,
        "增长率":5.4
    },
    '金融业':{
        '绝对值':722.85,
        "增长率":9.1
    },
    '房地产业':{
        '绝对值':425.42,
        "增长率":6.1
    },
     '其他服务业':{
        '绝对值':1467.35,
        "增长率":12.3
    },
}

In [93]:
dfChanye = pd.DataFrame(XianChanyeEconomy)
dfthirdchanye = pd.DataFrame(ThirdEconomy)

In [94]:
dfChanye

Unnamed: 0,第一产业,第三产业,第二产业
增长率,3.8,8.8,8.6
绝对值,232.01,3827.36,2197.81


In [95]:
dfthirdchanye

Unnamed: 0,交通运输仓储邮政,住宿和餐饮,其他服务业,房地产业,批发和零售,金融业
增长率,8.1,5.4,12.3,6.1,5.4,9.1
绝对值,293.65,169.79,1467.35,425.42,706.23,722.85
