# 数据获取与清洗-基于Pandas的实现

# 背景知识
## 数据分析的流程
在实际数据挖掘过程中，我们拿到的初始数据，往往存在缺失值、重复值、异常值或者错误值，通常这类数据被称为“脏数据”，需要对其进行清洗。另外有时数据的原始变量不满足分析的要求，我们需要先对数据进行一定的处理，也就是数据的预处理。数据清洗和预处理的主要目的是提高数据质量，从而提高挖掘结果的可靠度，这是数据挖掘过程中非常必要的一个步骤。否则“垃圾数据进，垃圾结果出”。一个典型的数据清洗和预处理过程如图1所示。

数据获取

数据观测

数据预处理：

模型选择与训练

模型验证

模型使用

## Pandas

以上的数据分析流程，除分析模型外，我们都可以使用pandas结合其他python包实现，并将数据通过pandas推送给模型进行训练并使用。

---
1. 介绍

Pandas是使用Python语言开发的用于数据处理和数据分析的第三方库。它擅长处理数字型数据和时间序列数据，当然文本型的数据也能轻松处理。作为Python的三方库，Pandas是建构在Python的基础上的，它封装了一些复杂的代码实现过程，我们只要调用它的方法就能轻松实现我们的需求

2. pandas 基本功能

* 从Excel、CSV、网页、SQL、剪贴板等文件或工具中读取数据；
* 合并多个文件或者电子表格中的数据，将数据拆分为独立文件；
* 数据清洗，如去重、处理缺失值、填充默认值、补全格式、处理极端值等；建立高效的索引；
* 支持大体量数据；
* 按一定业务逻辑插入计算后的列、删除列；
* 灵活方便的数据查询、筛选；
* 分组聚合数据，可独立指定分组后的各字段计算方式；
* 数据的转置，如行转列、列转行变更处理；连接数据库，直接用SQL查询数据并进行处理；
* 对时序数据进行分组采样，如按季、按月、按工作小时，也可以自定义周期，如工作日；窗口计算，移动窗口统计、日期移动等；
* 灵活的可视化图表输出，支持所有的统计图形；
* 为数据表格增加展示样式，提高数据识别效率。

### let's begin
简单的pandas实例，读取案例同学自己的淘宝消费记录，并进行基本的观察。

In [2]:
import pandas as pd
#获取数据#
ali=pd.read_csv('/home/aistudio/class/data/alipay.csv')
#基本的观察数据#
#参看数据前几行#
print(ali.head())
print('列名：',ali.columns)
print("参看行数和列数：",ali.shape)
print("参看索引，数据类型和内存信息:",ali.info())
print("参看各行数据类型：",ali.dtypes)
print("显示数据行和列名：",ali.axes)
#去除列名中的空格#
ali.columns = ali.columns.str.replace(' ', '')
list(ali)
#索引设置#
print('索引：',ali.index)
ali.set_index('交易订单号',inplace=True)
print('索引：',ali.index)




 

   收/支                   交易对方                      对方账号                  \
0  支出                    饿了么                     e50***@alibaba-inc.com   
1  支出                    中国石油黄山冲加油站            zha***@petrochina.com.cn   
2  支出                    上海稍息网络科技有限公司              qih***@51shaoxi.com    
3  支出                    *宜林                       187******82            
4  支出                    贵阳云岩勇惠贰壹便利店                                      

                               商品说明                  收/付款方式                \
0                              兰姐.凉皮.春卷.拌粉拌面外卖订单     中国农业银行信用卡(8765)        
1                              中国石油-条码支付             中国农业银行信用卡(8765)        
2  摩摩哒8.00元套餐如按摩椅未启动或对订单有疑问请拨打客服电话客服电话：400-869-0707  中国农业银行信用卡(8765)        
3                              收钱码收款                 花呗                     
4                    test12109132394238418173751739  花呗                     

   金额                    交易状态                  交易分类                  \
0              

In [28]:
pip install cufflinks

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Note: you may need to restart the kernel to use updated packages.


 [](http://)

In [29]:
#返回数据的基本数值描述#
#我们在可视化上除了使用matplotlib外，还可以使用cufflinks库，其与pandas的结合更为紧密

ali.describe()
import pandas as pd
import cufflinks as cf
import numpy as np
%matplotlib inline
cf.set_config_file(offline=True)
#import matplotlib.pyplot as plt
#from matplotlib.font_manager import FontProperties
#myfont=FontProperties(fname=r"/home/aistudio/external-libraries/微软雅黑.ttf",size=12)
#fig,axs=plt.subplots(1,2)
#ax1=axs[0]
#ax2=axs[1]
#ax1.set_title("消费金额箱型图",fontproperties=myfont)# 给第一个图副值titile
#ax1.boxplot(ali['金额'])
#ax2.set_title("消费时序",fontproperties=myfont)# 给第一个图副值titile
#ax2.plot(ali['金额'])


In [30]:
#排序计算,ascend=False,表示降序
ali.sort_values(by='金额',ascending=False).head()

Unnamed: 0_level_0,收/支,交易对方,对方账号,商品说明,收/付款方式,金额,交易状态,交易分类,商家订单号,交易时间
交易订单号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2022031129020841730186660088\t,其他,花呗,,主动还款-花呗2022年03月账单,中国建设银行储蓄卡(5842),997.19,还款成功,信用借还,\t,2022/3/11 21:08
2022031129020848730186538953\t,其他,花呗,,花呗自动还款,,997.19,还款失败,信用借还,\t,2022/3/11 16:54
2022031129020848730185659209\t,其他,花呗,,花呗自动还款,,997.19,还款失败,信用借还,\t,2022/3/11 9:55
2022031029020848730185052621\t,其他,花呗,,花呗自动还款,,997.19,还款失败,信用借还,\t,2022/3/10 19:12
2022031029020848730182782752\t,其他,花呗,,花呗自动还款,,997.19,还款失败,信用借还,\t,2022/3/10 8:37


In [4]:
pip install plotly_express 

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting plotly_express
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/d4/d6/8a2906f51e073a4be80cab35cfa10e7a34853e60f3ed5304ac470852a08d/plotly_express-0.4.1-py2.py3-none-any.whl (2.9 kB)
Collecting patsy>=0.5
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/87/7f/d37cd027c25145eeba92b1a756976931c831803d92547c8637a3400c339f/patsy-0.5.2-py2.py3-none-any.whl (233 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m233.7/233.7 KB[0m [31m14.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting statsmodels>=0.9.0
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/10/f1/4ab3919264cf968fab32df2244e0132d5093d6e524135f5fb1aa481edbc7/statsmodels-0.13.2-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (9.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.8/9.8 MB[0m [31m38.4 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting numpy>=1.11
  Downloading https://p

In [34]:
#分类聚合
import numpy as np 
import matplotlib.pyplot as plt
import plotly.express as px
cf.set_config_file(offline=True)
category=ali.groupby('交易分类').sum()
plt.rcParams['font.sans-serif']=['微软雅黑'] 
category.describe()
category['交易分类']=category.index.values
category.set_index(np.arange(0,18),inplace=True)
category
category.sort_values(by='金额',inplace=True)
fig = px.pie(category, values='金额', names='交易分类', title='交易分类')
fig.show()
fig.write_html("figs/file.html")
#fig=category.iplot(kind="bar",y='金额',x='交易分类')
 
# labels=category['交易分类']
# sizes=category['金额']
# fig,axs=plt.subplots()
# fig.set_size_inches(20,20)
# axs.set_title("消费分类",fontproperties=myfont) 
# axs.set_xlim([0,100])
# axs.set_ylim([0,100])
# axs.pie(sizes,labels=labels,autopct='%.1f%%',textprops={'fontsize':12,'color':'k'} ,radius=1)
# plt.style.use('ggplot')
# #plt.pie(sizes,labels=labels)

Pands的基本数据结构：
>我们知道，构建和处理二维、多维数组是一项繁琐的任务。Pandas 为解决这一问题， 在 ndarray 数组（NumPy 中的数组）的基础上构建出了两种不同的数据结构，分别是 Series（一维数据结构）DataFrame（二维数据结构）：
Series 是带标签的一维数组，这里的标签可以理解为索引，但这个索引并不局限于整数，它也可以是字符类型，比如 a、b、c 等；
DataFrame 是一种表格型数据结构，它既有行标签，又有列标签。

[引用](http://c.biancheng.net/pandas/what-is-pandas.html)


| 数据结构 |维度| 说明 |
| -------- | -------- | -------- |
|Series    | 1    | 该结构能够存储各种数据类型，比如字符数、整数、浮点数、Python 对象等，Series 用 name 和 index 属性来描述数据值。Series 是一维数据结构，因此其维数不可以改变。     |
|DataFrame    | 2    | DataFrame 是一种二维表格型数据的结构，既有行索引，也有列索引。行索引是 index，列索引是 columns。在创建该结构时，可以指定相应的索引值    |


 

### 数据获取

1. 目前公共的数据平台，多采用csv，json，html等文本下载方式，而更为开放或技术先进的平台也提供了api接口方式。
2. 企业内部数据分析为了做到及时性、与生产决策对接，更倾向于使用直接读取数据库，或api接口方式。

但不论哪一种数据获取方式，pandas都可以方便的获取数据。



#### excel、csv、txt、html等文本数据获取
 pands 对excel，csv的数据导入方式基本相同。但注意excel包含多个子页
>在处理数据时，建议使用cvs而不是excel作为数据存储方式

1.excel数据导入
``` python
pandas.read_excel（io，sheet_name = 0，header = 0，names = None，index_col = None，usecols = None，squeeze = False,dtype = None, ...）

```
参数说明：
* io：字符串，文件的路径对象。

sheet_name：None、string、int、字符串列表或整数列表，默认为0。字符串用于工作表名称,整数用于零索引工作表位置,字符串列表或整数列表用于请求多个工作表，为None时获取所有工作表。
* header：指定作为列名的行，默认0，即取第一行的值为列名。数据为列名行以下的数据；若数据不含列名，则设定 header = None。

* names：默认为None，要使用的列名列表，如不包含标题行，应显示传递header=None。

* index_col：指定列为索引列，默认None列（0索引）用作DataFrame的行标签。

* usecols：int或list，默认为None。

  * 如果为None则解析所有列
  * 如果为int则表示要解析的最后一列
  * 如果为int列表则表示要解析的列号列表
  * 如果字符串则表示以逗号分隔的Excel列字母和列范围列表（例如“A：E”或“A，C，E：F”）。范围包括双方。
* squeeze：boolean，默认为False,如果解析的数据只包含一列，则返回一个Series。

* dtype：列的类型名称或字典，默认为None。数据或列的数据类型。例如{'a'：np.float64，'b'：np.int32}使用对象保存存储在Excel中的数据而不解释dtype。如果指定了转换器，则它们将应用于dtype转换的INSTEAD。

* skiprows：省略指定行数的数据,从第一行开始。

* skipfooter：省略指定行数的数据，从尾部数的行开始。

* dtype:字典类型{'列名1':数据类型，‘列名’:数据类型}，设定指定列的数据类型。

 

 

In [41]:
#农产品价格的读取
import pandas as pd
pepper=pd.read_excel('data/price/农经网朝天椒价格数据.xlsx',header=0,index_col=4)
print(pepper.describe())
pepper.head()

In [2]:
#股票价格的读取，注意保存股票数据的excel有多个sheet，需要在读取的时候指明sheet
import pandas as pd
stock=pd.read_excel('data/stock/20210708之0210806A股全部记录.xlsx',sheet_name=0)

In [3]:
stock.head()

Unnamed: 0,原始涨幅排序,日期,代码,名称,涨幅%,现价,涨跌,买价,卖价,总量,...,每股未分配,权益比%,净益率%,毛利率%,营业利润率%,净利润率%,交易代码,自选日,自选价,自选收益%
0,1,20210709,688305,N科德,853.0,105.12,94.09,105.12,105.19,141447,...,0.57,79.85,2.29㈠,44.38,28.36,25.49,688305,--,--,--
1,2,20210709,688087,N英科,255.3,78.02,56.06,78.02,78.07,207386,...,5.28,74.31,4.26㈠,33.65,11.64,10.33,688087,--,--,--
2,3,20210709,605020,N永和,44.01,9.98,3.05,9.98,--,2894,...,2.68,54.13,3.62㈠,25.32,10.87,8.25,605020,--,--,--
3,4,20210709,300505,川金诺,20.01,28.13,4.69,28.13,--,149960,...,2.86,55.93,-0.53㈠,8.5,-2.25,-2.3,300505,--,--,--
4,5,20210709,300958,建工修复,20.0,34.2,5.7,34.2,--,130668,...,2.79,41.58,1.64㈠,20.33,8.22,7.35,300958,--,--,--


2. csv,txt pandas导入
pandas中csv与txt数据导入使用同样的函数
``` python 
pd.read_csv()
```
重要参数：
* seq:字符串，分隔符
* index_col: 指定作为索引的列
* usecols,skiprows,nrows：与read_exce作用相同
以下我们以贵州省政府数据开放平台为例，下载并读取其中的csv数据，并载入pandas中

In [4]:
import pandas as pd 
df=pd.read_csv('data/openData/guizhoudata.csv',encoding='gbk')
df
df2=pd.read_csv('data/openData/guizhoudata.csv',encoding='gbk',skiprows=1,nrows=54)
#由于原始csv中第一行并不是列名，同时最后一行是合计数据，造成读取后的dataframe不规范，故可以在读取时指定参数
df2


Unnamed: 0,编号,项目名称,产业领域,产业类别,县区,投资规模(万元),优势资源\n(优势条件),项目简介,联系人及\n联系方式,备注,Unnamed: 10
0,1,六枝特区特色食品加工项目,农业特色产业,生态畜牧业、农产品加工业,六枝特区,5000,依托六枝特区大北农、二表哥等生猪养殖基地，利用已建成的生态屠宰科技园设施。肉制品原材料在园区...,建设食品加工车间两座、综合仓库一座、食品安全检验中心一个、肉制品冷库一座，配备冷链物流车20...,扈 海15585860788,,
1,2,六枝特区生猪养殖项目,农业特色产业,生态畜牧业、农产品加工业,六枝特区,20000,一是基础条件较好。六枝特区是2003年全省确定的优质肉猪基地县之一，通过实施优质猪生产基地建...,新建存栏能繁母猪1万头的养殖场3个，建年出栏10万头以上的育肥场1个，建年出栏5万头以上的育...,李兴达13698589936,,
2,3,六枝特区生态渔业养殖项目,农业特色产业,生态渔业、农产品加工业,六枝特区,20000,六枝特区地处亚热带季风气候，属三岔河及北盘江上游的分水岭地带，境内河流分别归入长江和珠江流域...,六枝特区范围内独立或共管水域，实行生态放养有利于净化水质的鱼苗，每年根据投苗量、水质监测标准...,王 琼13595879246,,
3,4,贵州六枝现代生态循环农业项目,农业特色产业,食用菌（休闲农业）,六枝特区,11000,基地内配套有露天堆场、材料仓库、生产车间、无尘室、栽培库房、食用菌专用棚、锅炉房、宿舍、工具...,土地流转面积500亩，林下食用菌套种改造160亩，休闲区40亩，总建筑面积219058.67...,吴玉冰18768768683,,
4,5,林下经济综合产业旅游示范园区项目,农业特色产业,食用菌（休闲农业）,六枝特区,40000,六枝特区建成不同规模食用菌基地28个，建成标准化大棚674个，培育食用菌经营主体27个，产业...,建设1000亩林下菌种植基地，同时配套山鸡养殖、科普教育、研发、林下旅游等产业，从而推动林下...,王琼13595879246,,
5,6,盘州市标准化规模养羊场建设项目,农业特色产业,生态畜牧业、农产品加工业,盘州市,20000,已经完成项目各种相关手续，养殖场基地已经基础设施建设。,建设完善年出栏2500只标准化养羊场20个，共计投入2亿元，其中每个场投入1000万元。充分...,李仲佰13595883933,,
6,7,贵州苗医苗药文化产业园建设项目项目,农业特色产业,中药材、农产品加工业,盘州市,4000,依托苗医苗药，创建“贵州苗十三”品牌项目建设内容。当前，厂房建设已经基本完工，第一期计划建设...,项目规划建设用地40亩。计划建4条生产线。分别是粉剂消毒剂生产线及；液体消毒剂生产线；乳剂生...,余 婧 13888225370,,
7,8,盘州市茶旅游一体化建设项目,其它,现代物流业（农业）、休闲农业,盘州市,20000,已经完成种植项目各种相关手续，基地已经建成，大部分可以采茶，预计年产值2.5亿元。,利用现有8万亩茶叶种植基地，进一步完善仓储、保鲜等设施，按照茶旅一体化发展思路，建农旅一体化...,李仲佰13595883933,,
8,9,水城区黔味蜜代加工厂,农业特色产业,其他、休闲农业,水城区,790,已建有一条蜂蜜加工自动化生产线，一个精密仪器检测实验室，一个蜂文化展览馆，两个总容量超过20...,建设年产200吨蜂蜜加工厂1座，蜂蜜文化展示中心1个、综合楼1座，共占地19亩。,张 芳15585814784 0858 6318188,,
9,10,六盘水市芳香产业项目,农业特色产业,茶叶、休闲农业,水城区,180000,六盘水有非常好的茶园种植基础，合适的气候、优美的自然景观，具备打造出特色小镇的潜力。以花香入...,芳香花卉高标准选种育种、种植基地（土地、灌溉水电）；花香入茶，芳香花卉，初加工工厂（晾晒、烘...,赵 印18985490026,,


#### json数据获取

回顾什么是json？（信息组织课程教学）
* JSON 指的是 JavaScript 对象表示法（JavaScript Object Notation）JSON 是轻量级的文本数据交换格式JSON 独立于语言：
*  JSON 使用 Javascript语法来描述数据对象，但是 JSON 仍然独立于语言和平台。* * JSON 解析器和 JSON 库支持许多不同的编程语言。 目前非常多的动态（PHP，JSP，.NET）编程语言都支持JSON。
* JSON 具有自我描述性，更易理解
---
json基本语法规则：
* 数据在名称/值对中
* 数据由逗号分隔
* 大括号 {} 保存对象
* 中括号 [] 保存数组，数组可以包含多个对象

> json 之所以重要，在于其不但是一种数据存储的格式，也是目前最为通用的数据交换格式（另外还包括xml）。下面的api小节中，服务器提供的数据大部分就是以json格式返回。

 ---
 pyhton中处理json的库由很多，包括自带的json库，同时pandas对json支撑非常友好，可以直接读取，或者通过
 
 以下我们通过读取从[广州公共数据集数据](https://data.gz.gov.cn/odweb/catalog/catalogDetail.htm?cata_id=1978c495697f4c39baac13b3aa1479da)，以及某信息系统导出的json数据来演示其使用：
 


In [8]:
import json 
import pandas as pd
fruit=pd.read_json('data/openData/瓜果.json')
fruit
# 但发现由于原始json文件中由嵌套值（数组）所以需要进一步的处理

Unnamed: 0,data
0,"{'LSJ': '14.5', 'JLDW': '元/公斤', 'PZ': '香梨', 'U..."
1,"{'LSJ': '14.0', 'JLDW': '元/公斤', 'PZ': '潮州柑', '..."
2,"{'LSJ': '5.9', 'JLDW': '元/公斤', 'PZ': '香蕉', 'UP..."
3,"{'LSJ': '14.33', 'JLDW': '元/公斤', 'PZ': '苹果', '..."
4,"{'LSJ': '6.72', 'JLDW': '元/公斤', 'PZ': '西瓜', 'U..."
...,...
8834,"{'LSJ': '17.0', 'JLDW': '元/公斤', 'PZ': '香梨', 'U..."
8835,"{'LSJ': '8.0', 'JLDW': '元/公斤', 'PZ': '潮州柑', 'U..."
8836,"{'LSJ': '11.5', 'JLDW': '元/公斤', 'PZ': '哈密瓜', '..."
8837,"{'LSJ': '39.0', 'JLDW': '元/公斤', 'PZ': '红提', 'U..."


pandas 中json数据的进一步处理：

对于嵌套的json，可以使用json_normalize()方法，实现内部嵌套数组的展开。

In [6]:
import json 
import pandas as pd
with open ('data/openData/瓜果.json','r') as f :# with open 是python中安全读取文件的一种方法
    data =json.loads(f.read())
fruit2=pd.json_normalize(data,record_path=['data'])
fruit2 

Unnamed: 0,LSJ,JLDW,PZ,UPDATE_TIME
0,14.5,元/公斤,香梨,2022-02-26 23:57:51
1,14.0,元/公斤,潮州柑,2020-09-26 23:14:51
2,5.9,元/公斤,香蕉,2020-11-14 00:07:32
3,14.33,元/公斤,苹果,2020-09-30 23:14:52
4,6.72,元/公斤,西瓜,2021-01-12 23:53:08
...,...,...,...,...
8834,17.0,元/公斤,香梨,2020-10-11 23:15:45
8835,8.0,元/公斤,潮州柑,2022-04-30 00:17:07
8836,11.5,元/公斤,哈密瓜,2021-05-04 23:18:36
8837,39.0,元/公斤,红提,2021-07-31 03:06:53


#### api数据获取（知识图谱、数据科学方向同学选学）
什么是api：

[ibm的定义](https://www.ibm.com/cloud/learn/api)

>An application programming interface, or API, enables companies to open up their applications’ data and functionality to external third-party developers, business partners, and internal departments within their companies. This allows services and products to communicate with each other and leverage each other’s data and functionality through a documented interface. Developers don't need to know how an API is implemented; they simply use the interface to communicate with other products and services. API use has surged over the past decade, to the degree that many of the most popular web applications today would not be possible without APIs.
---
API 的工作步骤

**How an API works**

An API is a set of defined rules that explain how computers or applications communicate with one another. APIs sit between an application and the web server, acting as an intermediary layer that processes data transfer between systems.

Here’s how an API works:

A client application initiates an API call to retrieve information—also known as a request. This request is processed from an application to the web server via the API’s Uniform Resource Identifier (URI) and includes a request verb, headers, and sometimes, a request body.
After receiving a valid request, the API makes a call to the external program or web server.
The server sends a response to the API with the requested information.
The API transfers the data to the initial requesting application.
While the data transfer will differ depending on the web service being used, this process of requests and response all happens through an API. Whereas a user interface is designed for use by humans, APIs are designed for use by a computer or application.

APIs offer security by design because their position as middleman facilitates the abstraction of functionality between two systems—the API endpoint decouples the consuming application from the infrastructure providing the service. API calls usually include authorization credentials to reduce the risk of attacks on the server, and an API gateway can limit access to minimize security threats. Also, during the exchange, HTTP headers, cookies, or query string parameters provide additional security layers to the data.

For example, consider an API offered by a payment processing service. Customers can enter their card details on the frontend of an application for an ecommerce store. The payment processor doesn’t require access to the user’s bank account; the API creates a unique token for this transaction and includes it in the API call to the server. This ensures a higher level of security against potential hacking threats.

**pyhton中如何使用api**

了解了api的基本原理，使用python调取api数据也非常简单

![](https://www.dataquest.io/wp-content/uploads/2019/09/api-request.svg)
其基本分为两步
1. 向远端服务器发起需求request
2. 服务器响应请求，返回数据Data，以及状态代码（例如404）

---
 
 

* GET： 请求指定的页面信息，并返回实体主体。

* HEAD： 只请求页面的首部。

* POST： 请求服务器接受所指定的文档作为对所标识的URI的新的从属实体。

* PUT： 从客户端向服务器传送的数据取代指定的文档的内容。

* DELETE： 请求服务器删除指定的页面。

python 中常用的API相关库包括：request,urllib2\urllib3 等



In [13]:
#背景知识：网页范围
import requests as rs
url="http://www.163.com"

# web_163=rs.get(url)
# print("访问状态：",web_163.status_code)
# url2="http://www.googdddle.com"
# google=rs.get(url2)
# print("访问状态",google.status_code)
import urllib3
http=urllib3.PoolManager()
response=http.request('GET','http://www.bing.com')
print("访问情况：",response.status)
print("返回网页的代码")
print(response.status,response.data.decode('utf-8'))
 

200
返回网页的代码
200 <!doctype html><html lang="zh" dir="ltr"><head><meta name="theme-color" content="#4F4F4F" /><meta name="description" content="必应可帮助你将理论付诸实践，使得搜索更加方便快捷，从而达到事半功倍的效果。" /><meta http-equiv="X-UA-Compatible" content="IE=edge" /><meta name="viewport" content="width=device-width, initial-scale=1.0" /><meta property="fb:app_id" content="570810223073062" /><meta property="og:type" content="website" /><meta property="og:title" content="是否有胆量穿过这片蓝铃花丛？" /><meta property="og:image" content="https://www.bing.com/th?id=OHR.HertfordshireBluebells_ZH-CN1027832085_tmb.jpg&amp;rf=" /><meta property="og:image:width" content="1366" /><meta property="og:image:height" content="768" /><meta property="og:url" content="https://www.bing.com/?form=HPFBBK&amp;ssd=20220505_1600&amp;mkt=zh-CN" /><meta property="og:site_name" content="必应" /><meta property="og:description" content="每年的春天只有短短几个星期，穿过英格兰的池塘，在新萌芽的林地树冠下，最迷人的花朵之一开始盛开。 蓝铃" /><title>必应</title><link rel="shortcut icon" href="/sa/simg/favicon-tra


 了解了api基本知识，以及python相关操作后，以下我们可以通过开放的api接口来获取我们希望获取的数据，包括：

**政府开放数据api**

* [上海公共数据开放平台](https://data.sh.gov.cn/view/data-resource/index.html)
* [贵州数据](http://data.guizhou.gov.cn/home)

* [广东市政府统一开放平台](https://data.gz.gov.cn/odweb/index.jsp) 

* [美国政府数据开放平台](https://data.gov/)

还有很多，同学们可以自己去找一找

**其他API**

---

比较有名的通用api：
 * 阿里云市场
---

 
 

In [None]:
#访问贵州省公共数据#
#贵州省土壤数据#
# 贵州省公共数据平台禁止云端访问，请下载在本地实验#
import pandas as pd 
import requests as rs
from requests.auth import HTTPBasicAuth
import json
api_url="http://data.guizhou.gov.cn:8000/open54ed5853-a099-4db8-b1b6-27739f661a64"

#您的密钥号（username）：tomis1cat_d1db077a-b5fb-4389-b57b-a787c319f885
#您的密钥密码（password）：77f6fd96-5411-4b49-8b3b-318590441b8f
print(api_url)
user='tomis1cat_d1db077a-b5fb-4389-b57b-a787c319f885'
password='77f6fd96-5411-4b49-8b3b-318590441b8f'
request=rs.get(api_url, auth=HTTPBasicAuth(user,password))
df = pd.DataFrame(json.loads(request.text)['data'])
df.head()

In [3]:
#上海市公共数据开放平台#
#注意其返回为xml格式，但依然可以转换为json后处理#

import requests
import json
url ='https://data.sh.gov.cn/interface/1116/10193'
token='ddcb70f16a059dcd46c0cfbb373c8292'
data = {"syear":"2020"}
#headers = {"Authorization":"bearer a809655f-e4bf-41b8-9088-85a1d3780d6d"}
headers = {'Content-Type':'application/xml;charset=UTF-8',"Authorization" : token}
 
res = requests.post(url=url,params=data,headers=headers)
print(res.status_code)
print(res.text)
 

200
<result><code>999999</code><message>token为空</message></result>


In [15]:
# 通过阿里云市场获取农产品价格数据接口
import requests
import json
host = 'https://agroprice.market.alicloudapi.com'
path = '/aliyun/market/category/detail'
method = 'GET'
appcode = 'c54c9fe045b34f819e44eda2eb2baf1f'
querys = 'areaName=%E5%B2%B3%E9%BA%93%E5%8C%BA&categoryName=%E5%A4%A7%E7%B1%B3&date=2020-12-22'
url = host + path + '?' + querys
res = requests.get(url, headers={'Authorization': 'APPCODE %s' % appcode})
data = json.loads(res.text)
import pandas as pd
df = pd.DataFrame(data['data'])
df.head()


Unnamed: 0,cateName,breedName,unit,nowAvgPrice,provinceName,cityName,areaName,marketDate
0,大米,香米,斤,3.4,湖南省,长沙市,岳麓区,2020-12-22
1,大米,黑米,斤,3.7,湖南省,长沙市,岳麓区,2020-12-22


#### 金融数据接口

得益于python的流行，很多数据提供商，特别是金融相关的信息服务商都推出了自己的数据接口，很多需要收取费用。但国内部分接口免费且更新及时，例如：

其中国内比较有名的经济数据api包括

* tushare https://tushare.pro/document/2 （要积分）

是目前知名度比较高的免费量化数据接口，同时支持python2.x和python3.x。有比较稳定的用户群，数据经过一段时间的考验之后，比较可靠了。Tushare提供股票行情数据和基本面数据，宏观经济数据，还有龙虎榜，信息地雷，票房排行，财经新闻等功能。给用户提供了多维数据构建量化模型，还提供多种获取数据的方式。不论是初学者还是量化老鸟，都能在里面找到自己需要的信息。因为其数据是从网络实时爬取，所以需要等待一段时间，比较考验网速，另外如果原网站结构出现问题，将会导致函数失效；同时因为是全市场抓取，所以不支持单只股票的信息获取。

* akshare     https://akshare.readthedocs.io/

AkShare 是基于 Python 的开源金融数据接口库, 目的是实现对股票, 期货, 期权, 基金, 外汇, 债券, 指数, 数字货币等金融产品的基本面数据、实时和历史行情数据、衍生数据从数据采集, 数据清洗, 到数据落地的一套开源工具, 满足金融数据科学家, 数据科学爱好者在金融数据获取方面的需求

* [证券宝](http://baostock.com/baostock/index.php/%E9%A6%96%E9%A1%B5) 



In [5]:
pip install baostock -i https://pypi.tuna.tsinghua.edu.cn/simple/ --trusted-host pypi.tuna.tsinghua.edu.cn


Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple/
Collecting baostock
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/43/e2/b367c78db42bafcf752442b7d582ba2a724286313d9f126c5fee06064fb2/baostock-0.8.8-py3-none-any.whl (55 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.2/55.2 KB[0m [31m8.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: baostock
Successfully installed baostock-0.8.8
Note: you may need to restart the kernel to use updated packages.


在此我们演示获取证券宝中的财务数据。
>季频财务数据 
已经包含的财务数据：部分上市公司资产负债信息、上市公司现金流量信息、上市公司利润信息、上市公司杜邦指标信息。
时间范围：2007年至今。

import baostock as bs
import pandas as pd



In [6]:
import baostock as bs
import pandas as pd
# 登陆系统
lg = bs.login()
# 显示登陆返回信息
print('login respond error_code:'+lg.error_code)
print('login respond  error_msg:'+lg.error_msg)


服务器连接失败，请稍后再试。
[Errno 32] Broken pipe
接收数据异常，请稍后再试。
login respond error_code:10002007
login respond  error_msg:网络接收错误。


#### 数据库数据获取（见信息组织课程相关内容）

在信息系统开发，以及面向企业内部数据分析时，直接调用数据库或数据仓库的数据进行分析，是最为简便、快速的方法。有些数据库，例如sqlserver 甚至实现了在存储过程中嵌入python或r进行分析。

与数据库分为关系数据库、非关系数据库等对应，python数据获取数据的方式也不同，在此，我们主要介绍关系数据库中的数据获取。

RDF数据获取（知识图谱，语义网方向同学选学）

### 数据选取
获得数据中，我们有时需要对其进行选取。一般包括三种方法：
* 通过行列 iloc loc 函数选取
* 通过逻辑选取
* 结合sql选取

#### 行列数据选取
pandas中数据选取与numpy相同，也可以通过指明行列范围进行选取，但一般我们使用更为方便的函数进行数据选取操作：

 

In [55]:
import json 
import demjson
import pandas
import json
with open('data/laobao.json','r') as file:
    str = file.read()
    data = json.loads(str)
 
 
laobao=pd.json_normalize(data,record_path='orders',meta=[ 'LoginName', 'Sex', 'DepartmentName', 'JobName'])
#meta代表展开后，保留的上一层json key，注意可能存在冲突名
laobao.head()
#我们只保留其中用户的信息#
laobao.columns
user=laobao.iloc[:,3:5]


In [56]:
user.head()


Unnamed: 0,OrderMoney,CreateTime
0,1006.45,2021-11-03 15:54:04
1,79.65,2022-03-09 09:52:10
2,79.65,2022-03-09 09:52:51
3,818.34,2022-04-08 10:06:21
4,159.48,2022-04-08 21:18:21


#### 基于条件的数据选取

### 数据观察
DAE

#### 基本数据观测

#### 可视化数据观测(见class0，可视化数据）

#### 一键式数据观测

### 数据预处理

#### 缺失值处理

#### 数据标准化处理

### 时间序列数据（特别章）

时间序列（Time Series）数据是一类非常重要的数据。事物的发展总是伴随着时间推进，数据指标也在各个时间点上产生。时间序列（简称“时序”）是在一个时间周期内，测量值按照时间顺序变化，将这个变量与关联的时间对应而形成的一个数据序列。时序数据与我们的生活紧密相连，每天的温度变化、农作物随着时间的生长高度、物理元素随着时间的衰变、每时每刻变化的股票价格等，都会产生时序数据。Pandas具有强大的时序处理能力，被广泛应用于金融数据分析，它的诞生也是缘于金融数据分析领域的需求。本章将全面介绍Pandas在时序数据处理中的方法，主要有时间的概念、时间的计算机表示方法、时间的属性操作和时间格式转换；时间之间的数学计算、时长的意义、时长与时间的加减操作；时间偏移的概念、用途、表示方法；时间跨度的意义、表示方法、单位转换等。

---
pandas 中，时序数据可使用to_datetime方法实现多批量的日期数据转换。

在计算机中，时间多用时间戳来表示。时间戳（Timestamp）是指格林威治时间1970年1月1日00时00分00秒起至当下的总秒数。它是一个非常大的数字，一直在增加，如1591684854代表北京时间2020/6/9 14:40:54。那么1970年以前的时间怎么表示呢？用负数，如–1591684957代表1919/7/262:17:23。
>Panda等python库都是建立在Python 的dtetime的基础上建立时间对象的。


In [41]:
import datetime
print(datetime.datetime.now())

2022-05-04 08:51:14.396211


In [42]:
#pandas 创建固定时间（时间点）
import datetime 
import pandas as pd
print(pd.Timestamp(datetime.datetime(2000,9,5)))
print(pd.Timestamp(datetime.datetime(2000,5,5,16,13,22)))
print(pd.Timestamp(year=2000,month=9,day=6,hour=21))
print(pd.Timestamp())
#时区设在
print()

2000-09-05 00:00:00
2000-05-05 16:13:22
2000-09-06 21:00:00


In [None]:
#当前时间获取

### 时序数据、时间数据的转换
 将众多的固定时间组织起来就形成了时间序列，即所谓的时序数据。固定时间在时序数据中可以按照一定的频率组织，如教堂的钟声每小时整点会鸣响，从而形成一个以一个小时为周期的时间序列。也可以无规则地组织起来，如员工的上下班打卡时间，员工会上班前和下班后打卡，但这些时间一般是在上下班时间附近随机的。在数据分析中大多是周期性时序数据。

#### 转换现有时间数据
