# pandas 进阶修炼 ｜早起Python
<br>

**本习题由公众号【早起Python & 可视化图鉴】 原创，转载及其他形式合作请与我们联系（微信号`sshs321`)，未经授权严禁搬运及二次创作，侵权必究！**



本习题基于 `pandas` 版本 `1.1.3`，所有内容应当在 `Jupyter Notebook` 中执行以获得最佳效果。

不同版本之间写法可能会有少许不同，如若碰到此情况，你应该学会如何自行检索解决。

# 1 - 数据加载与存储 

是的，常常被忽略的「<font color=#E36C07>**数据加载与存储**</font>」也大有门道且值得作为本套习题的开门之章。

在一次数据分析的过程中，你可能只会读取或存储一两次数据集。

**但若能灵活掌握各项设置，在读取阶段就将数据筛选、匹配、格式指定等操作完成，有时会为我们节省大量时间。**

在本节习题中，我将 pandas 数据分析中常见的数据读取与存储操作进行整理。

<font color=#E36C07>**既可以用于巩固、学习各种操作，也可以作为速查手册使用**</font>。

## 初始化

<br>

该 `Notebook` 版本为**纯习题版**

如果需要答案或者提示，可以微信搜索公众号「早起Python」获取！

## 1-1 数据读取

### 1 读取 Excel 文件

<br>

- 读取当前目录下 `某招聘网站数据.csv` 文件

- 读取当前目录下 `TOP250.xlsx` 文件

**注意**：使用 `pandas` 读取 `CSV` 与 读取 `xlsx` 格式的 `Excel` 文件方法大致相同

因此接下来与 `Excel` 相关的操作均以 `CSV` 格式进行出题。

In [3]:
import pandas as pd
data = pd.read_csv("某招聘网站数据.csv")
data = pd.read_excel("TOP250.xlsx")

### 2 读取 Excel 文件｜指定位置

在大多数情况下，我们会将 `notebook` 和数据源文件放在同一个目录（文件夹下），这样直接使用`pd.read_xxx("文件名")`即可成功读取。
 
但有时需要读取的文件和 `notebook` 不在同一个目录下，这时可以使用绝对路径或者相对本 `notebook` 的路径。

现在请读取本套习题中第二章节下的数据，即 `2 - 个性化显示设置/data.csv`

In [6]:
data_ext = pd.read_csv('../2 - 个性化显示设置/data.csv')
data_ext.head(n=2)

Unnamed: 0,positionId,positionName,companyId,companySize,industryField,financeStage,companyLabelList,firstType,secondType,thirdType,...,plus,pcShow,appShow,deliver,gradeDescription,promotionScoreExplain,isHotHire,count,aggregatePositionIds,famousCompany
0,6802721,数据分析,475770,50-150人,"移动互联网,电商",A轮,"['绩效奖金', '带薪年假', '定期体检', '弹性工作']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
1,5204912,数据建模,50735,150-500人,电商,B轮,"['年终奖金', '做五休二', '六险一金', '子女福利']",开发|测试|运维类,数据开发,建模,...,,0,0,0,,,0,0,[],False


###  3 读取 Excel 文件｜指定行（顺序）
<br>

读取当前目录下 `某招聘网站数据.csv` 文件的 <font color = '#5F5FFC'>前20行</font>

In [8]:
data = pd.read_csv("某招聘网站数据.csv", nrows=20)
print(data.shape)

(20, 52)


In [10]:
data = pd.read_csv("某招聘网站数据.csv")
print(data.shape)

(105, 52)


###  4 读取 Excel 文件｜指定行（跳过）
<br>

读取当前目录下 `某招聘网站数据.csv` 文件并<font color = '#5F5FFC'>跳过前20行</font>

In [9]:
data = pd.read_csv("某招聘网站数据.csv", skiprows=20)
print(data.shape)

(85, 52)


###  5 读取 Excel 文件｜指定行（条件）
<br>

读取当前目录下 `某招聘网站数据.csv` 文件中全部<font color = '#5F5FFC'>偶数行</font>

思考：如果是读取全部奇数行，或者更多满足指定条件的行呢？

In [13]:
data = pd.read_csv("某招聘网站数据.csv", skiprows=(lambda x: x %2 == 0))
print(data.shape)

(52, 52)


### 6 读取 Excel 文件｜指定列（列号）

<br>

**根据指定列号读取**

读取当前目录下 `某招聘网站数据.csv` 文件的第 `1、3、5` 列

In [14]:
data = pd.read_csv("某招聘网站数据.csv", usecols=[1,3,5])
print(data.shape)

(105, 3)


###  7 读取 Excel 文件｜指定列（列名）

<br>

**根据指定列名读取**

读取当前目录下 `某招聘网站数据.csv` 文件的 `positionId、positionName、salary` 列

In [19]:
data = pd.read_csv("某招聘网站数据.csv", usecols=["positionId","positionName","salary"])
data.head

<bound method NDFrame.head of      positionId           positionName  salary
0       6802721                   数据分析   37500
1       5204912                   数据建模   15000
2       6877668                   数据分析    3500
3       6496141                   数据分析   45000
4       6467417                   数据分析   30000
..          ...                    ...     ...
100     6884346                  数据分析师   25000
101     6849100                 商业数据分析   35000
102     6803432        奔驰·耀出行-BI数据分析专家   30000
103     6704835                BI数据分析师   20000
104     6728058  数据分析专家-LQ(J181203029)   21500

[105 rows x 3 columns]>

###  8 读取 Excel 文件｜指定列（匹配）

<br>

**根据指定列名匹配读取**

让我们来个更难一点的，还是读取 `某招聘网站数据.csv` 文件，但现在有一个 list 中包含多个字段👇

`usecols = ['positionId','test','positionName', 'test1','salary']`

如果 `usecols` 中的列名存在于 `某招聘网站数据.csv` 中，则读取。

In [21]:
data = pd.read_csv("某招聘网站数据.csv", usecols=lambda x: x in ['positionId','test','positionName', 'test1','salary'])
data.shape

(105, 3)

### 9 读取 Excel 文件｜指定索引

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，并在读取时将 `positionId` 设置为索引列

In [20]:
data = pd.read_csv("某招聘网站数据.csv", index_col='positionId')
data.head

<bound method NDFrame.head of                      positionName  companyId companySize industryField  \
positionId                                                               
6802721                      数据分析     475770     50-150人      移动互联网,电商   
5204912                      数据建模      50735    150-500人            电商   
6877668                      数据分析     100125     2000人以上    移动互联网,企业服务   
6496141                      数据分析      26564   500-2000人            电商   
6467417                      数据分析      29211     2000人以上         物流丨运输   
...                           ...        ...         ...           ...   
6884346                     数据分析师      21236   500-2000人   移动互联网,医疗丨健康   
6849100                    商业数据分析      72076   500-2000人      移动互联网,电商   
6803432           奔驰·耀出行-BI数据分析专家     751158    150-500人         移动互联网   
6704835                   BI数据分析师      52840     2000人以上            电商   
6728058     数据分析专家-LQ(J181203029)       2474     2000人以上         汽车丨出行   

       

###  10 读取 Excel 文件｜指定标题

<br>


读取当前目录下 `某招聘网站数据.csv` 文件的 `positionId、positionName、salary` 列，并将标题设置为 `ID、岗位名称、薪资`

In [24]:
data = pd.read_csv("某招聘网站数据.csv", usecols=["positionId","positionName","salary"])
data = data.rename(columns={
    'positionId':"Id",
    'positionName': "岗位",
    'salary' : "薪资"
})
data.head

<bound method NDFrame.head of           Id                     岗位     薪资
0    6802721                   数据分析  37500
1    5204912                   数据建模  15000
2    6877668                   数据分析   3500
3    6496141                   数据分析  45000
4    6467417                   数据分析  30000
..       ...                    ...    ...
100  6884346                  数据分析师  25000
101  6849100                 商业数据分析  35000
102  6803432        奔驰·耀出行-BI数据分析专家  30000
103  6704835                BI数据分析师  20000
104  6728058  数据分析专家-LQ(J181203029)  21500

[105 rows x 3 columns]>

###  11 读取 Excel 文件｜缺失值转换

<br>


读取当前目录下 `某招聘网站数据.csv` 文件，**并不将缺失值标记为 `NA`**

思考：为什么要这样做？

In [47]:
data = pd.read_csv("某招聘网站数据.csv", keep_default_na=False)
data.isnull().sum()

positionId               0
positionName             0
companyId                0
companySize              0
industryField            0
financeStage             0
companyLabelList         0
firstType                0
secondType               0
thirdType                0
skillLables              0
positionLables           0
industryLables           0
createTime               0
formatCreateTime         0
district                 0
businessZones            0
salary                   0
workYear                 0
jobNature                0
education                0
positionAdvantage        0
imState                  0
lastLogin                0
publisherId              0
approve                  0
subwayline               0
stationname              0
linestaion               0
latitude                 0
longitude                0
hitags                   0
resumeProcessRate        0
resumeProcessDay         0
score                    0
newScore                 0
matchScore               0
m

###  12 读取 Excel 文件｜缺失值标记

<br>


读取当前目录下 `某招聘网站数据.csv` 文件，**并将`[]`标记为缺失值**


In [46]:
data = pd.read_csv("某招聘网站数据.csv", na_values='[]', keep_default_na=True)
data.isnull().sum()

positionId                 0
positionName               0
companyId                  0
companySize                0
industryField              0
financeStage               0
companyLabelList          10
firstType                  0
secondType                 0
thirdType                  0
skillLables               13
positionLables             2
industryLables            49
createTime                 0
formatCreateTime           0
district                   0
businessZones             52
salary                     0
workYear                   0
jobNature                  0
education                  0
positionAdvantage          0
imState                    0
lastLogin                  0
publisherId                0
approve                    0
subwayline                60
stationname               60
linestaion                60
latitude                   0
longitude                  0
hitags                   103
resumeProcessRate          0
resumeProcessDay           0
score         

### 13 读取 Excel 文件｜忽略缺失值

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，**但不处理缺失值**

思考：和之前的有什么不同，为什么这么做？

In [48]:
data = pd.read_csv("某招聘网站数据.csv")
data.isnull().sum()

positionId                 0
positionName               0
companyId                  0
companySize                0
industryField              0
financeStage               0
companyLabelList           0
firstType                  0
secondType                 0
thirdType                  0
skillLables                0
positionLables             0
industryLables             0
createTime                 0
formatCreateTime           0
district                   0
businessZones             52
salary                     0
workYear                   0
jobNature                  0
education                  0
positionAdvantage          0
imState                    0
lastLogin                  0
publisherId                0
approve                    0
subwayline                60
stationname               60
linestaion                60
latitude                   0
longitude                  0
hitags                   103
resumeProcessRate          0
resumeProcessDay           0
score         

### 14 读取 Excel 文件｜指定格式

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，并将 `positionId,companyId` 设置为字符串格式

In [53]:
data = pd.read_csv("某招聘网站数据.csv", converters= {
    'positionId': str,
    'companyId': str
})
print(data.dtypes)
data.head()

positionId                object
positionName              object
companyId                 object
companySize               object
industryField             object
financeStage              object
companyLabelList          object
firstType                 object
secondType                object
thirdType                 object
skillLables               object
positionLables            object
industryLables            object
createTime                object
formatCreateTime          object
district                  object
businessZones             object
salary                     int64
workYear                  object
jobNature                 object
education                 object
positionAdvantage         object
imState                   object
lastLogin                 object
publisherId                int64
approve                    int64
subwayline                object
stationname               object
linestaion                object
latitude                 float64
longitude 

Unnamed: 0,positionId,positionName,companyId,companySize,industryField,financeStage,companyLabelList,firstType,secondType,thirdType,...,plus,pcShow,appShow,deliver,gradeDescription,promotionScoreExplain,isHotHire,count,aggregatePositionIds,famousCompany
0,6802721,数据分析,475770,50-150人,"移动互联网,电商",A轮,"['绩效奖金', '带薪年假', '定期体检', '弹性工作']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
1,5204912,数据建模,50735,150-500人,电商,B轮,"['年终奖金', '做五休二', '六险一金', '子女福利']",开发|测试|运维类,数据开发,建模,...,,0,0,0,,,0,0,[],False
2,6877668,数据分析,100125,2000人以上,"移动互联网,企业服务",上市公司,"['节日礼物', '年底双薪', '股票期权', '带薪年假']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
3,6496141,数据分析,26564,500-2000人,电商,D轮及以上,"['生日趴', '每月腐败基金', '每月补贴', '年度旅游']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],True
4,6467417,数据分析,29211,2000人以上,物流丨运输,上市公司,"['技能培训', '免费班车', '专项奖金', '岗位晋升']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],True


### 15 读取 Excel 文件｜指定格式（时间）

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，并将 `createTime` 列设置为字符串格式

In [57]:
data = pd.read_csv("某招聘网站数据.csv", converters= {
    'createTime': str
})
print(data.dtypes)
data.head()

object


0    2020/3/16 11:00
1    2020/3/16 11:08
2    2020/3/16 10:33
3    2020/3/16 10:10
4     2020/3/16 9:56
Name: createTime, dtype: object

### 16 读取 Excel 文件｜分块读取


<br>

读取当前目录下 `某招聘网站数据.csv` 文件，要求返回一个可迭代对象，每次读取 10 行

思考：为什么这样做？

In [63]:
data = pd.read_csv("某招聘网站数据.csv", chunksize=10)
for chunk in data:
    print(chunk)

'带薪年假', '定期体检']  开发|测试|运维类       数据开发      数据分析  ...   
48    ['午餐补助', '带薪年假', '定期体检', '年度旅游']  产品|需求|项目类       数据分析      数据分析  ...   
49      ['技能培训', 'Geek', '开放', '扁平管理']  综合职能|高级管理         财务        财务  ...   

   plus pcShow appShow deliver gradeDescription promotionScoreExplain  \
40  NaN      0       0       0              NaN                   NaN   
41  NaN      0       0       0              NaN                   NaN   
42  NaN      0       0       0              NaN                   NaN   
43  NaN      0       0       0              NaN                   NaN   
44  NaN      0       0       0              NaN                   NaN   
45  NaN      0       0       0              NaN                   NaN   
46  NaN      0       0       0              NaN                   NaN   
47  NaN      0       0       0              NaN                   NaN   
48  NaN      0       0       0              NaN                   NaN   
49  NaN      0       0       0              NaN        

In [61]:
data

<pandas.io.parsers.readers.TextFileReader at 0x122403040>

### 17 读取 txt 文件｜常规

<br>

读取当前目录下 `Titanic.txt` 文件。

注意：在接下来的几种格式文件读取中，对于之前重复的参数/功能将不再整理，仅介绍读取功能。

In [65]:
data = pd.read_csv('Titanic.txt',header=None)
data.head(n=10)

Unnamed: 0,0
0,version https://git-lfs.github.com/spec/v1
1,oid sha256:c5a58dbb3c71f7e6ea1593430e58b31b359...
2,size 28627


### 18 读取 txt 文件｜含中文

<br>

读取当前目录下 `TOP250.txt` 文件。

In [66]:
data = pd.read_csv('TOP250.txt',header=None)
data.head(n=10)

Unnamed: 0,0
0,version https://git-lfs.github.com/spec/v1
1,oid sha256:fc07222d2c2b9525d9f0328b0a76beafa8a...
2,size 90329


### 19 读取 JSON 文件



<br>

读取当前目录下 `某基金数据.json` 文件。

In [67]:
data = pd.read_json('某基金数据.json')
data.head(n=10)

Unnamed: 0,净值日期,单位净值,累计净值,日增长率,申购状态,赎回状态,分红送配
0,2020-02-13,1.884,1.884,-0.11%,开放申购,开放赎回,
1,2020-02-12,1.886,1.886,3.34%,开放申购,开放赎回,
2,2020-02-11,1.825,1.825,-0.16%,开放申购,开放赎回,
3,2020-02-10,1.828,1.828,1.33%,开放申购,开放赎回,
4,2020-02-07,1.804,1.804,0.61%,开放申购,开放赎回,
5,2020-02-06,1.793,1.793,3.11%,开放申购,开放赎回,
6,2020-02-05,1.739,1.739,1.64%,开放申购,开放赎回,
7,2020-02-04,1.711,1.711,7.34%,开放申购,开放赎回,
8,2020-02-03,1.594,1.594,-7.22%,开放申购,开放赎回,
9,2020-01-23,1.718,1.718,-2.05%,开放申购,开放赎回,


### 20 读取 HDF5 文件

<br>

`HDF5`是一种特殊的文件格式，常见于在大规模存储数据上

关于 `pandas` 与 `hdf5` 格式文件的操作较多，下面仅学习如何读取。

读取当前目录下`store_tl.h5`文件

In [68]:
data = pd.read_hdf('store_tl.h5')
data.head()

ImportError: Missing optional dependency 'tables'.  Use pip or conda to install tables.

微信搜索公众号「早起Python」，关注后可以获得更多资源！

### 21 从剪贴板读取数据

<br>

打开当前目录下 `Titanic.txt` 文件，全选并复制。

现在直接从剪贴板读取数据。

In [72]:
data = pd.read_clipboard(header=None)
data.head()

Unnamed: 0,0,1
0,version,https://git-lfs.github.com/spec/v1
1,oid,sha256:c5a58dbb3c71f7e6ea1593430e58b31b359d65c...
2,size,28627


### 22 从 SQL 读取数据

<br>

有时我们需要从 `SQL` 中读取数据，如果先将数据导出再`pandas`读取并不是一个合适的选择。

在 `pandas` 中支持直接从 `sql` 中查询并读取。

为了方便统一操作，请先执行下面的代码创建数据。

In [4]:
from sqlite3 import connect
conn = connect(':memory:')
df = pd.DataFrame(data=[[0, '10/11/12'], [1, '12/11/10']],
                  columns=['int_column', 'date_column'])
df.to_sql('test_data', conn)

下面将 `SQL` 语句 `SELECT int_column, date_column FROM test_data` 转换为 `DataFrame`

In [78]:
data = pd.read_sql_query("select int_column, date_column FROM test_data", conn)
data.head()

Unnamed: 0,int_column,date_column
0,0,10/11/12
1,1,12/11/10


### 23 从网页读取数据

<br>

直接从东京奥运会官网读取奖牌榜数据。

目标网站地址为 `https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm`

思考：什么类型的在线表格可以直接读取？

In [5]:
import pandas as pd
data = pd.read_html('http://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm')
data.head()

ImportError: BeautifulSoup4 (bs4) not found, please install it

### 24 循环读取数据

<br>

在本小节 `demodata` 文件夹下有多个 `Excel` 文件，要求一次性循环读取全部文件

In [9]:
import glob
all_files = glob.glob('./demodata/*.xlsx')

li = []
for filename in all_files:
    li.append(pd.read_excel(filename))
print(li)
data = pd.concat(li, axis=0)
data.shape

[             日期  日增长率    涨跌          持有金额   剩余本金   操作           总资产
0    2020-01-02  1.63    up      0.000000  20000  NaN  20000.000000
1    2020-01-03  1.22    up      0.000000  20000  NaN  20000.000000
2    2020-01-06  1.09    up      0.000000  20000  NaN  20000.000000
3    2020-01-07  0.69    up      0.000000  20000  NaN  20000.000000
4    2020-01-08  0.12    up      0.000000  20000  NaN  20000.000000
..          ...   ...   ...           ...    ...  ...           ...
336  2021-05-26 -0.23  down  19036.737094   4900  NaN  23936.737094
337  2021-05-27  1.19    up  19263.274266   4900  buy  24163.274266
338  2021-05-28 -0.11  down  19341.824829   4800  NaN  24141.824829
339  2021-05-31  2.77    up  19877.593377   4800  buy  24677.593377
340  2021-06-01 -0.87  down  19803.639619   4700  NaN  24503.639619

[341 rows x 7 columns],              日期  日增长率    涨跌          持有金额   剩余本金   操作           总资产
0    2020-01-02  0.03    up      0.000000  20000  NaN  20000.000000
1    2020-01-03 -1.44 

(3410, 7)

## 1-2 数据创建

<br>

除了直接读取本地文件，学会直接创建数据框也很重要，常见于测试一些函数，下面是从常见数据结构创建数据框的方法整理

### 25 从列表创建

<br>

将下面的 `list` 转换为 `dataframe`，并指定列名为`"早起Python"`

In [10]:
l = [1,2,3,4,5]

In [13]:
data = pd.DataFrame(data=l, columns=['早起Python'])
data.head()

Unnamed: 0,早起Python
0,1
1,2
2,3
3,4
4,5


### 26 从列表创建｜嵌套列表

<br>

将下面的 `list` 转换为 `dataframe`，并指定行索引为`"公众号","早起Python"`

In [21]:
l = [[1,2,3],[4,5,6]]
ll = []
for ind in range(0, 3):
    ll.append([l[0][ind], l[1][ind]])
print(ll)

[[1, 4], [2, 5], [3, 6]]


In [19]:
list(ll)

[([1, 2, 3],), ([4, 5, 6],)]

In [22]:
data = pd.DataFrame(data=ll, columns=["公众号","早起Python"])
data.head()

Unnamed: 0,公众号,早起Python
0,1,4
1,2,5
2,3,6


![公众号：早起Python](http://liuzaoqi.oss-cn-beijing.aliyuncs.com/2021/09/18/16319660121648.jpg?域名/sample.jpg?x-oss-process=style/stylename)

### 27 从字典创建

执行下方代码，并将字典转换为`dataframe`

In [23]:
d = {
    "one": pd.Series([1.0, 2.0, 3.0], index=["a", "b", "c"]),
    "two": pd.Series([1.0, 2.0, 3.0, 4.0], index=["a", "b", "c", "d"]) }

In [24]:
data = pd.DataFrame.from_dict(d)
data.head()

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


### 28 从字典创建｜指定索引

<br>

还是上一题的字典`d`，将其转换为`dataframe`并指定索引顺序为 `d、b、a`

In [31]:
data = pd.DataFrame.from_records(d, index=['d','b','a'])
data.head()

Unnamed: 0,one,two
d,,4.0
b,2.0,2.0
a,1.0,1.0


### 29 从字典创建｜指定列名

<br>

还是上一题的字典`d`，将其转换为`dataframe`并指定索引顺序为 `d、b、a`，列名为`"two", "three"`

In [36]:
data = pd.DataFrame.from_records(d, index=['d','b','a']).rename(columns={
    'one': 'two',
    'two':'three'
})
data.head()

Unnamed: 0,two,three
d,,4.0
b,2.0,2.0
a,1.0,1.0


### 30 从字典创建｜字典列表
<br>

将下方列表型字典转换为`dataframe`

思考：如何指定行/列索引？

In [37]:
d = [{"a": 1, "b": 2}, {"a": 5, "b": 10, "c": 20}]

In [38]:
data = pd.DataFrame.from_records(d)
data.head()

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


### 31 从集合创建

<br>

将下面的元组转换为 dataframe 且行列索引均为 `1,2,3,4`

In [26]:
t =((1,0,0,0,),(2,3,0,0,),(4,5,6,0,),(7,8,9,10,))

In [41]:
data = pd.DataFrame.from_records(t, columns=[1,2,3,4], index=[1,2,3,4])
data.head()

1,2,3,4
1,0,0,0
2,3,0,0
4,5,6,0
7,8,9,10


## 1-3 数据存储

### 32 保存为 CSV

<br>

将第三题读取到的数据保存为 `csv` 格式至当前目录下（文件名任意）

In [47]:
data = pd.read_csv("某招聘网站数据.csv",nrows = 20)

In [43]:
data.to_csv('tmp1.csv')

### 33 保存为 CSV｜指定列

<br>

将第三题读取到的数据保存为 `csv` 格式至当前目录下（文件名任意），且只保留`positionName、salary`两列

In [51]:
data.to_csv('tmp2.csv', columns=['positionName', 'salary'])

### 34 保存为 CSV｜取消索引

<br>

将第三题读取到的数据保存为 `csv` 格式至当前目录下（文件名任意），且取消每一行的索引

In [54]:
data.to_csv('tmp3.csv', index=False)

### 35 保存为 CSV｜标记缺失值

<br>

在上一题的基础上，在保存的同时，将缺失值标记为`'数据缺失'`

In [55]:
data.fillna('数据缺失') .to_csv('tmp4.csv', index=False)

### 36 保存为CSV｜压缩

<br>

将上一题的数据保存至 `zip` 文件，解压后出现 `out.csv`

In [61]:
data.fillna('数据缺失') .to_csv('tmp1.zip', index=False, compression='zip')

### 37 保存为 Excel 

<br>

将第三题读取到的数据保存为 `xlsx` 格式至当前目录下（文件名任意）

In [56]:
data.to_excel('tmp1.xlsx')

### 38 保存为 JSON

将之前的数据保存为 `json` 格式至当前目录下（文件名任意）

In [57]:
data.to_json('tmp1.json')

### 39 保存为 Markdown

将之前数据转换为 `markdown` 形式表格，这样可以直接复制进 `.md` 文件中使用

In [58]:
data.to_markdown('tmp1.md')

### 40 保存为 Html

将之前的数据保存为 `html` 格式至当前目录下（文件名任意），并进行如下设置
- 取消行索引
- 标题居中对齐
- 列宽100

In [62]:
data.to_html('tmp1.html', col_space=100, index=False, justify='center')