In [1]:
file01 = r'data_set/3-2 job_chance.csv'
with open(file01, 'r', encoding='utf-8') as f:
    lines = f.read()
print(lines)

岗位,公司,地点,最低工资(万/月),最高工资(万/月)
php开发工程师,重庆赶海科技有限公司,重庆,0.6,0.8
java开发工程师,上海赛可出行科技服务有限公司,南京,1.5,2.5
测试工程师,朗新科技股份有限公司,无锡,0.6,1
web开发工程师,快助（天津）科技有限公司,天津,0.8,1
销售顾问,上海钢联电子商务股份有限公司,深圳,1,1.5


In [3]:
import pandas as pd
# 用readlines方法读取文本文件，读取为列表格式，并去除末尾的回车符号；
# 基于逗号分隔符，对每行进行处理分割为列表格式
with open(file01, 'r', encoding='utf-8') as f:
    lines = f.readlines()
content = [line.strip().split(',') for line in lines]
df_job01 = pd.DataFrame(content[1:], columns=content[0])
df_job01

Unnamed: 0,岗位,公司,地点,最低工资(万/月),最高工资(万/月)
0,php开发工程师,重庆赶海科技有限公司,重庆,0.6,0.8
1,java开发工程师,上海赛可出行科技服务有限公司,南京,1.5,2.5
2,测试工程师,朗新科技股份有限公司,无锡,0.6,1.0
3,web开发工程师,快助（天津）科技有限公司,天津,0.8,1.0
4,销售顾问,上海钢联电子商务股份有限公司,深圳,1.0,1.5


In [4]:
# read_csv 会自动默认第一行为列名，并根据第一列的特别，默认是否设置为索引
df_job02 = pd.read_csv(file01, encoding='utf-8')
df_job02

Unnamed: 0,岗位,公司,地点,最低工资(万/月),最高工资(万/月)
0,php开发工程师,重庆赶海科技有限公司,重庆,0.6,0.8
1,java开发工程师,上海赛可出行科技服务有限公司,南京,1.5,2.5
2,测试工程师,朗新科技股份有限公司,无锡,0.6,1.0
3,web开发工程师,快助（天津）科技有限公司,天津,0.8,1.0
4,销售顾问,上海钢联电子商务股份有限公司,深圳,1.0,1.5


In [8]:
# index_col 用来指定用作索引的列编号，0表示第一列；
# header用来指定用作列名的编号，默认为0，表示取第一行，若不希望设置任何列名，则取None
df_job03 = pd.read_csv(file01, encoding='utf-8', index_col=0, header=0)
df_job03
df_job03.index
# df_job03.columns

Index(['php开发工程师', 'java开发工程师', '测试工程师', 'web开发工程师', '销售顾问'], dtype='object', name='岗位')

In [9]:
df_job04 = pd.read_table(file01,
                         encoding='utf-8',
                         index_col=0,
                         header=0,
                         sep=',')
df_job04

Unnamed: 0_level_0,公司,地点,最低工资(万/月),最高工资(万/月)
岗位,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
php开发工程师,重庆赶海科技有限公司,重庆,0.6,0.8
java开发工程师,上海赛可出行科技服务有限公司,南京,1.5,2.5
测试工程师,朗新科技股份有限公司,无锡,0.6,1.0
web开发工程师,快助（天津）科技有限公司,天津,0.8,1.0
销售顾问,上海钢联电子商务股份有限公司,深圳,1.0,1.5


In [10]:
# 只想读取2行
df_job05 = pd.read_csv(file01, encoding='utf-8', nrows=2)
df_job05

Unnamed: 0,岗位,公司,地点,最低工资(万/月),最高工资(万/月)
0,php开发工程师,重庆赶海科技有限公司,重庆,0.6,0.8
1,java开发工程师,上海赛可出行科技服务有限公司,南京,1.5,2.5


In [12]:
# 通过制定chunksize，函数返回一个可以迭代的文件读取器
chunker = pd.read_csv(file01, encoding='utf-8', chunksize=2)
chunker
# 可以通过循环进行迭代读取。这种方法对读取大文件很有优势。
for piece in chunker:
    print(piece)

          岗位              公司  地点  最低工资(万/月)  最高工资(万/月)
0   php开发工程师      重庆赶海科技有限公司  重庆        0.6        0.8
1  java开发工程师  上海赛可出行科技服务有限公司  南京        1.5        2.5
         岗位            公司  地点  最低工资(万/月)  最高工资(万/月)
2     测试工程师    朗新科技股份有限公司  无锡        0.6          1
3  web开发工程师  快助（天津）科技有限公司  天津        0.8          1
     岗位              公司  地点  最低工资(万/月)  最高工资(万/月)
4  销售顾问  上海钢联电子商务股份有限公司  深圳          1        1.5


In [17]:
# read_html函数会对发起请求的url进行全局解析，对符合规则的部分，解析成DataFrame格式，并放入列表中。
# 如果网页中存在多个标签结构，函数的返回列表长度会大于1。
tables = pd.read_html(
    "http://eid.csrc.gov.cn/ipo/infoBlock.action?pageNo=1&temp=&temp1=&blockId=1&block=1&blockType=byBlock",
    encoding="utf-8",
    header=0)
len(tables)
tables[2]

Unnamed: 0,公司名称,披露日期,上市地和板块,保荐机构,披露类型,PDF资料
0,上海太和水环境科技发展股份有限公司,2020-01-03,上交所,中原证券股份有限公司,预先披露更新,招股说明书
1,济南圣泉集团股份有限公司,2020-01-03,上交所,长城证券股份有限公司,预先披露,招股说明书
2,浙江省新能源投资集团股份有限公司,2020-01-03,上交所,财通证券股份有限公司,预先披露,招股说明书
3,神通科技集团股份有限公司,2020-01-03,上交所,广发证券股份有限公司,预先披露更新,招股说明书
4,苏州市味知香食品股份有限公司,2020-01-03,上交所,国泰君安证券股份有限公司,预先披露,招股说明书
5,重庆四方新材股份有限公司,2020-01-03,上交所,中原证券股份有限公司,预先披露更新,招股说明书
6,宁波世茂能源股份有限公司,2019-12-27,上交所,东方花旗证券有限公司,预先披露,招股说明书
7,江西九丰能源股份有限公司,2019-12-27,上交所,中国国际金融股份有限公司,预先披露,招股说明书
8,浙江大自然户外用品股份有限公司,2019-12-27,上交所,东方花旗证券有限公司,预先披露,招股说明书
9,浙江李子园食品股份有限公司,2019-12-26,上交所,财通证券股份有限公司,预先披露,招股说明书


In [19]:
# 把tables[2]保存为txt文本，保存的部分包括正文、列名、索引等全部内容
tables[2].to_csv('data_set/htmltest.txt', encoding='utf-8', sep='\t')

In [20]:
# 利用iloc索引，选择我们需要保存的区域；
# 设置index=False，不保存索引
tables[2].iloc[0:-1, :].to_csv('data_set/htmltest02.txt',
                               sep='\t',
                               index=False)

In [26]:
# 利用循环，更改pageNo的值，达到翻页效果；
# 完成数据采集后，通过设置写入模式mode，进行覆盖写入或者追加写入
# 这里以采集前5页为例
import time
for page in range(1, 89):
    url = "http://eid.csrc.gov.cn/ipo/infoBlock.action?pageNo={0}&temp=&temp1=&blockId=1&block=1&blockType=byBlock".format(
        page)
    time.sleep(0.5)
    tables = pd.read_html(url, encoding='utf-8', header=0)
    if page == 1:
        tables[2].iloc[0:-1, 0:-1].to_csv('data_set/htmltest03.txt',
                                          sep='\t',
                                          encoding='utf-8',
                                          index=False,
                                          mode='w')
    else:
        tables[2].iloc[0:-1, 0:-1].to_csv('data_set/htmltest03.txt',
                                          sep='\t',
                                          encoding='utf-8',
                                          index=False,
                                          header=None,
                                          mode='a')