## 1.Series数据结构与索引

In [18]:
import pandas as pd
import numpy as np

### Series数据结构

In [4]:
stock_seri = pd.Series([3.5, 7.2, 12.6, 4.7, 8.2],
                       index=["300773", "600751", "300405", "002937", "601615"],
                       name="Stock")
stock_seri

300773     3.5
600751     7.2
300405    12.6
002937     4.7
601615     8.2
Name: Stock, dtype: float64

In [5]:
stock_seri.name

'Stock'

### Series的常用操作

**Series的索引**

In [12]:
stock_seri["300773"]

3.5

In [13]:
stock_seri[["300773", "600751","300405"]]

300773     3.5
600751     7.2
300405    12.6
Name: Stock, dtype: float64

In [14]:
stock_seri[[True, False, False, False, True]]

300773    3.5
601615    8.2
Name: Stock, dtype: float64

In [15]:
stock_seri["300773":"300405"]       # 注意:pandas是左闭右闭的区间

300773     3.5
600751     7.2
300405    12.6
Name: Stock, dtype: float64

**Numpy常用的运算，在Series里也是适用的**

In [16]:
stock_seri[stock_seri > 8]

300405    12.6
601615     8.2
Name: Stock, dtype: float64

In [17]:
stock_seri*2

300773     7.0
600751    14.4
300405    25.2
002937     9.4
601615    16.4
Name: Stock, dtype: float64

In [19]:
np.average(stock_seri)

7.239999999999999

**查看Series数据集中是否有空值**

In [20]:
stock_seri.isnull()

300773    False
600751    False
300405    False
002937    False
601615    False
Name: Stock, dtype: bool

**修改index**

In [21]:
stock_seri.index = ["拉卡拉", "海航科技", "科隆股份", "兴瑞科技", "明阳智能"]

In [23]:
stock_seri["兴瑞科技"] = 6.8

In [24]:
stock_seri

拉卡拉      3.5
海航科技     7.2
科隆股份    12.6
兴瑞科技     6.8
明阳智能     8.2
Name: Stock, dtype: float64

**字典来创建Series**

In [25]:
stock_price_dict = {
    "2012": 1,
    "2013": 3
}
pd.Series(stock_price_dict)

2012    1
2013    3
dtype: int64

## DataFrame数据结构与索引

### DataFrame数据结构

In [27]:
frame0 = pd.DataFrame(np.arange(6).reshape(2, 3),
                      index=[2000, 2001], columns=["A", "B", "C"])
frame0

Unnamed: 0,A,B,C
2000,0,1,2
2001,3,4,5


In [34]:
# 利用字典格式，生成DataFrame数据结构
data = {"A": [0, 3], "B": [1, 4], "C": [2, 5]}
temp = pd.DataFrame(data, index= [4, 5])
temp

Unnamed: 0,A,B,C
4,0,1,2
5,3,4,5


In [35]:
temp["A"]

4    0
5    3
Name: A, dtype: int64

**对多列索引，需要以列表的形式传入序列**

In [36]:
temp[["A", "B", "C"]]

Unnamed: 0,A,B,C
4,0,1,2
5,3,4,5


**筛选A值为0的行**

In [38]:
temp[temp["A"] == 0]

Unnamed: 0,A,B,C
4,0,1,2


In [39]:
# 乘法运算
temp*2

Unnamed: 0,A,B,C
4,0,2,4
5,6,8,10


### DataFrame索引

#### loc 标签索引

In [41]:
frame0 = pd.DataFrame(np.arange(6).reshape(2, 3),
                      index=[2000, 2001], columns=["A", "B", "C"])
frame0

Unnamed: 0,A,B,C
2000,0,1,2
2001,3,4,5


In [43]:
# 选择索引为2000的行
frame0.loc[2000]

A    0
B    1
C    2
Name: 2000, dtype: int32

In [44]:
# 选择“A”列
frame0.loc[:,"A"]

2000    0
2001    3
Name: A, dtype: int32

In [47]:
# 选择索引为2001，BC列的元素
frame0.loc[2001,"B":"C"]

B    4
C    5
Name: 2001, dtype: int32

#### iloc函数

In [48]:
# 通过位置，选择索引为2000的行
frame0.iloc[0]

A    0
B    1
C    2
Name: 2000, dtype: int32

In [50]:
# 通过位置，选择“A”列
frame0.iloc[:,0]

2000    0
2001    3
Name: A, dtype: int32

#### 索引对象初窥

In [51]:
frame0.index[:1]

Int64Index([2000], dtype='int64')

**用reindex的方式，为数据集构造一个新的index对象**

In [53]:
# reindex的方式，会继承原先的索引，如果有新增的索引项，那么会自动填充空值
frame0.reindex([2000,2001,2002])

Unnamed: 0,A,B,C
2000,0.0,1.0,2.0
2001,3.0,4.0,5.0
2002,,,


**增加fill_value属性，自动填充其他值**

In [54]:
frame0.reindex([2000,2001,2002], fill_value = 20)

Unnamed: 0,A,B,C
2000,0,1,2
2001,3,4,5
2002,20,20,20


In [55]:
frame0.columns

Index(['A', 'B', 'C'], dtype='object')

#### 修改列名，有2种方法

**方法一：利用rename函数**

In [59]:
frame0.rename(columns={"A": "a","B":"b","C":"c"})

Unnamed: 0,a,b,c
2000,0,1,2
2001,3,4,5


**方法二：重新指定**

In [61]:
frame0.columns = ["d", "e", "f"]
frame0

Unnamed: 0,d,e,f
2000,0,1,2
2001,3,4,5


## 读取文件

### Python读取文件

In [68]:
file01 = r"C:\Users\16526\Desktop\电网项目\dataset\chapter 3\3-2 job_chance.csv"
with open(file01, "r", encoding="utf-8") as f:
    lines = f.read()
lines

'岗位,公司,地点,最低工资(万/月),最高工资(万/月)\nphp开发工程师,重庆赶海科技有限公司,重庆,0.6,0.8\njava开发工程师,上海赛可出行科技服务有限公司,南京,1.5,2.5\n测试工程师,朗新科技股份有限公司,无锡,0.6,1\nweb开发工程师,快助（天津）科技有限公司,天津,0.8,1\n销售顾问,上海钢联电子商务股份有限公司,深圳,1,1.5'

In [70]:
with open(file01, "r", encoding="utf-8") as f:
    lines = f.readlines()
content = [line.strip().split(",") for line in lines]
content

[['岗位', '公司', '地点', '最低工资(万/月)', '最高工资(万/月)'],
 ['php开发工程师', '重庆赶海科技有限公司', '重庆', '0.6', '0.8'],
 ['java开发工程师', '上海赛可出行科技服务有限公司', '南京', '1.5', '2.5'],
 ['测试工程师', '朗新科技股份有限公司', '无锡', '0.6', '1'],
 ['web开发工程师', '快助（天津）科技有限公司', '天津', '0.8', '1'],
 ['销售顾问', '上海钢联电子商务股份有限公司', '深圳', '1', '1.5']]

**columns代表列名**

In [71]:
df_job01 = pd.DataFrame(content[1:], columns=content[0])
df_job01

Unnamed: 0,岗位,公司,地点,最低工资(万/月),最高工资(万/月)
0,php开发工程师,重庆赶海科技有限公司,重庆,0.6,0.8
1,java开发工程师,上海赛可出行科技服务有限公司,南京,1.5,2.5
2,测试工程师,朗新科技股份有限公司,无锡,0.6,1.0
3,web开发工程师,快助（天津）科技有限公司,天津,0.8,1.0
4,销售顾问,上海钢联电子商务股份有限公司,深圳,1.0,1.5


### Pandas读取文件

Pandas提供了多个读取表格型的文本文件，并转化为DataFrame对象的函数，
其中用的最多的2个函数应该是read_csv和read_table。
二者均提供了一个标准的方法，从文件型对象中记载带分隔符的数据，
其中<font color=red>read_csv</font>的默认分隔符为逗号，
<font color=red>read_table</font>的默认分隔符为制表符\t。

#### 常规读取

**read_csv 会自动默认第一行为列名，并根据第一列的特别，默认是否设置为索引**

In [72]:
df_job02 = pd.read_csv(file01, encoding="utf-8")
df_job02

Unnamed: 0,岗位,公司,地点,最低工资(万/月),最高工资(万/月)
0,php开发工程师,重庆赶海科技有限公司,重庆,0.6,0.8
1,java开发工程师,上海赛可出行科技服务有限公司,南京,1.5,2.5
2,测试工程师,朗新科技股份有限公司,无锡,0.6,1.0
3,web开发工程师,快助（天津）科技有限公司,天津,0.8,1.0
4,销售顾问,上海钢联电子商务股份有限公司,深圳,1.0,1.5


In [76]:
# index_col 用来指定用作索引的列编号，0表示第一列；
# header用来指定用作列名的编号，默认为0，表示取第一行，若不希望设置任何列名，
# 则取None，程序默认配置以0开始序列作为列名；
df_job03 = pd.read_csv(file01, encoding="utf-8", index_col=None, header=0)
df_job03

Unnamed: 0,岗位,公司,地点,最低工资(万/月),最高工资(万/月)
0,php开发工程师,重庆赶海科技有限公司,重庆,0.6,0.8
1,java开发工程师,上海赛可出行科技服务有限公司,南京,1.5,2.5
2,测试工程师,朗新科技股份有限公司,无锡,0.6,1.0
3,web开发工程师,快助（天津）科技有限公司,天津,0.8,1.0
4,销售顾问,上海钢联电子商务股份有限公司,深圳,1.0,1.5


**read_table的用法和read_csv基本一致，如果你希望读取上述文件，只需要额外指定一下文件分隔符：**

In [79]:
df_job04 = pd.read_table(file01, encoding="utf-8", index_col=None, header=0, sep=",")
df_job04

Unnamed: 0,岗位,公司,地点,最低工资(万/月),最高工资(万/月)
0,php开发工程师,重庆赶海科技有限公司,重庆,0.6,0.8
1,java开发工程师,上海赛可出行科技服务有限公司,南京,1.5,2.5
2,测试工程师,朗新科技股份有限公司,无锡,0.6,1.0
3,web开发工程师,快助（天津）科技有限公司,天津,0.8,1.0
4,销售顾问,上海钢联电子商务股份有限公司,深圳,1.0,1.5


#### <font color=red>函数语法分析</font>

<font color =red>read_csv</font>和<font color =red>read_table</font>对文件读取的设置非常灵活

#### 分块读取

In [83]:
# 设置norw参数
df_job05 = pd.read_csv(file01, encoding="utf-8", nrows=2)
df_job05

Unnamed: 0,岗位,公司,地点,最低工资(万/月),最高工资(万/月)
0,php开发工程师,重庆赶海科技有限公司,重庆,0.6,0.8
1,java开发工程师,上海赛可出行科技服务有限公司,南京,1.5,2.5


如果需要逐块读取，需要设置<font color = red>chunksize</font>（行数）参数：

In [85]:
# 通过制定chunksize，函数返回一个可以迭代的文件读取器
chunker = pd.read_csv(file01, encoding="utf-8", chunksize=2)
chunker

<pandas.io.parsers.TextFileReader at 0x188d4f8ecc8>

In [86]:
# 可以通过循环进行迭代读取。这种方法对读取大文件很有优势。
for piece in chunker:
    print(piece)

          岗位              公司  地点  最低工资(万/月)  最高工资(万/月)
0   php开发工程师      重庆赶海科技有限公司  重庆        0.6        0.8
1  java开发工程师  上海赛可出行科技服务有限公司  南京        1.5        2.5
         岗位            公司  地点  最低工资(万/月)  最高工资(万/月)
2     测试工程师    朗新科技股份有限公司  无锡        0.6          1
3  web开发工程师  快助（天津）科技有限公司  天津        0.8          1
     岗位              公司  地点  最低工资(万/月)  最高工资(万/月)
4  销售顾问  上海钢联电子商务股份有限公司  深圳          1        1.5


#### 读取在线网页中的表格

<font color = red>read_html</font>函数会对发起请求的url进行全局解析

In [105]:
tables = pd.read_html(
    "http://eid.csrc.gov.cn/ipo/infoBlock.action?pageNo=1&temp=&temp1=&blockId=1&block=1&blockType=byBlock",
    encoding="utf-8", header=0)
len(tables)

3

In [106]:
tables[2]

Unnamed: 0,公司名称,披露日期,上市地和板块,保荐机构,披露类型,PDF资料
0,天津鼎维固模架工程股份有限公司,2020-06-24,上交所,国泰君安证券股份有限公司,预先披露,招股说明书
1,新疆派特罗尔能源服务股份有限公司,2020-06-24,上交所,国泰君安证券股份有限公司,预先披露,招股说明书
2,爱慕股份有限公司,2020-06-24,上交所,"中信建投证券股份有限公司,中原证券股份有限公司",预先披露,招股说明书
3,绿田机械股份有限公司,2020-06-24,上交所,长江证券承销保荐有限公司,预先披露,招股说明书
4,中际联合（北京）科技股份有限公司,2020-06-19,上交所,中信建投证券股份有限公司,预先披露更新,招股说明书
5,德才装饰股份有限公司,2020-06-19,上交所,光大证券股份有限公司,预先披露更新,招股说明书
6,江苏利柏特股份有限公司,2020-06-19,上交所,海通证券股份有限公司,预先披露,招股说明书
7,江阴标榜汽车部件股份有限公司,2020-06-19,上交所,广发证券股份有限公司,预先披露,招股说明书
8,浙江出版传媒股份有限公司,2020-06-19,上交所,财通证券股份有限公司,预先披露,招股说明书
9,浙江博泰家具股份有限公司,2020-06-19,上交所,中信证券股份有限公司,预先披露,招股说明书


### Pandas数据保存

**在路径前面加<font color=red>r</font>，即保持字符原始值的意思。**

In [115]:
# 把tables[2]保存为txt文本，保存的部分包括正文、列名、索引等全部内容"
tables[2][:-1].to_csv(r"C:\Users\16526\Desktop\电网项目\dataset\1.txt", sep="\t",index=False)

In [114]:
# 利用iloc索引，选择我们需要保存的区域；
# 设置index=False，不保存索引
tables[2].iloc[:-1, :].to_csv(r"C:\Users\16526\Desktop\电网项目\dataset\2.txt", sep="\t", index=False)

#### 拓展：如何翻页采集数据

In [119]:
# 利用循环，更改pageNo的值，达到翻页效果；
# 完成数据采集后，通过设置写入模式mode，进行覆盖写入或者追加写入
# 这里以采集前5页为例
import time

for page in [1,2,3,4,5]:
    url = "http://eid.csrc.gov.cn/ipo/infoBlock.action?pageNo={}&temp=&temp1=&blockId=1&block=1&blockType=byBlock".format(page)
    # 控制数据采集的频率
    time.sleep(1)
    tables = pd.read_html(url, encoding="utf-8", header=0)
    # 对首页进行判断，如果是首页，则把列名写入，否则，只写入正文内容
    if page == 1:
        tables[2].iloc[:-1, :].to_csv(r"C:\Users\16526\Desktop\电网项目\dataset\3.txt", sep="\t", index=False, mode="w")
    else:
        tables[2].iloc[:-1, :].to_csv(r"C:\Users\16526\Desktop\电网项目\dataset\3.txt", sep="\t", header=None, index=False, mode="a")