# 1 - 数据加载与存储 

是的，常常被忽略的「<font color=#E36C07>**数据加载与存储**</font>」也大有门道且值得作为本套习题的开门之章。

在一次数据分析的过程中，你可能只会读取或存储一两次数据集。

**但若能灵活掌握各项设置，在读取阶段就将数据筛选、匹配、格式指定等操作完成，有时会为我们节省大量时间。**

在本节习题中，我将 pandas 数据分析中常见的数据读取与存储操作进行整理。

<font color=#E36C07>**既可以用于巩固、学习各种操作，也可以作为速查手册使用**</font>。

## 1-1 数据读取

### 1 读取 Excel 

<br>

- 读取当前目录下 `某招聘网站数据.csv` 文件

- 读取当前目录下 `TOP250.xlsx` 文件

**注意**：使用 `pandas` 读取 `CSV` 与 读取 `xlsx` 格式的 `Excel` 文件方法大致相同

因此接下来与 `Excel` 相关的操作均以 `CSV` 格式进行出题。

In [3]:
import pandas as pd
data = pd.read_csv("某招聘网站数据.csv")

### 2 读取 Excel ｜指定位置

在大多数情况下，我们会将 `notebook` 和数据源文件放在同一个目录（文件夹下），这样直接使用`pd.read_xxx("文件名")`即可成功读取。
 
但有时需要读取的文件和 `notebook` 不在同一个目录下，这时可以使用绝对路径或者相对本 `notebook` 的路径。

现在请读取本套习题中第二章节下的数据，即 `2 - 个性化显示设置/data.csv`

In [2]:
data = pd.read_csv("../02 - 个性化显示设置/data.csv")

###  3 读取 Excel ｜指定行（顺序）
<br>

读取当前目录下 `某招聘网站数据.csv` 文件的 <font color = '#5F5FFC'>前20行</font>

In [5]:
data = pd.read_csv(
    "./某招聘网站数据.csv", 
    nrows=20
)

###  4 读取 Excel ｜指定行（跳过）
<br>

读取当前目录下 `某招聘网站数据.csv` 文件并<font color = '#5F5FFC'>跳过前20行</font>

In [7]:
data = pd.read_csv(
    "./某招聘网站数据.csv", 
    skiprows= 20
)

###  5 读取 Excel ｜指定行（条件）
<br>

读取当前目录下 `某招聘网站数据.csv` 文件中全部<font color = '#5F5FFC'>偶数行</font>

思考：如果是读取全部奇数行，或者更多满足指定条件的行呢？

In [23]:
data = pd.read_csv(
    "./某招聘网站数据.csv", 
    skiprows = lambda: not x%2
)

### 6 读取 Excel ｜指定列（列号）

<br>

**根据指定列号读取**

读取当前目录下 `某招聘网站数据.csv` 文件的第 `1、3、5` 列

In [11]:
data = pd.read_csv(
    "./某招聘网站数据.csv", 
    usecols = [0,2,4]
)

###  7 读取 Excel ｜指定列（列名）

<br>

**根据指定列名读取**

读取当前目录下 `某招聘网站数据.csv` 文件的 `positionId、positionName、salary` 列

In [14]:
data = pd.read_csv(
    "./某招聘网站数据.csv", 
    usecols = ['positionId',
               'positionName',
               'salary']
)
data.head()

Unnamed: 0,positionId,positionName,salary
0,6802721,数据分析,37500
1,5204912,数据建模,15000
2,6877668,数据分析,3500
3,6496141,数据分析,45000
4,6467417,数据分析,30000


###  8 读取 Excel ｜指定列（匹配）

<br>

**根据指定列名匹配读取**

让我们来个更难一点的，还是读取 `某招聘网站数据.csv` 文件，但现在有一个 list 中包含多个字段👇

`usecols = ['positionId','test','positionName', 'test1','salary']`

如果 `usecols` 中的列名存在于 `某招聘网站数据.csv` 中，则读取。

In [22]:
cols = ['positionId','test',
        'positionName', 'test1',
        'salary']
data = pd.read_csv(
    "./某招聘网站数据.csv", 
    usecols=lambda x: x in cols
)

### 9 读取 Excel ｜指定索引

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，并在读取时将 `positionId` 设置为索引列

In [46]:
data = pd.read_csv(
    "./某招聘网站数据.csv", 
    index_col="positionId"
)

###  10 读取 Excel ｜指定标题

<br>


读取当前目录下 `某招聘网站数据.csv` 文件的 `positionId、positionName、salary` 列，并将标题设置为 `ID、岗位名称、薪资`

In [42]:
data = pd.read_csv(
    "./某招聘网站数据.csv", 
    header=0, usecols=[0,1,17], 
    names=['ID','岗位名称','薪资']
)

###  11 读取 Excel ｜缺失值转换

<br>


读取当前目录下 `某招聘网站数据.csv` 文件，**并不将缺失值标记为 `NA`**

思考：为什么要这样做？

In [33]:
data = pd.read_csv(
    "./某招聘网站数据.csv", 
    keep_default_na= False
)

###  12 读取 Excel ｜缺失值标记

<br>


读取当前目录下 `某招聘网站数据.csv` 文件，**并将`[]`标记为缺失值**


In [34]:
data = pd.read_csv(
    "./某招聘网站数据.csv", 
    na_values= "[]"
)

### 13 读取 Excel ｜忽略缺失值

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，**但不处理缺失值**

思考：和之前的有什么不同，为什么这么做？

In [37]:
data = pd.read_csv(
    "./某招聘网站数据.csv", 
    na_filter=False
)

### 14 读取 Excel ｜指定格式

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，并将 `positionId,companyId` 设置为字符串格式

In [41]:
data = pd.read_csv(
    "./某招聘网站数据.csv", 
    dtype={'positionId':str, 
           'companyId':str}
)

### 15 读取 Excel ｜时间格式

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，并将 `createTime` 列设置为字符串格式

In [49]:
data = pd.read_csv(
    "./某招聘网站数据.csv", 
    parse_dates=["createTime"]
)

### 16 读取 Excel ｜分块读取


<br>

读取当前目录下 `某招聘网站数据.csv` 文件，要求返回一个可迭代对象，每次读取 10 行

思考：为什么这样做？

In [53]:
data = pd.read_csv(
    "./某招聘网站数据.csv", 
    chunksize=10
)

### 17 读取 txt 文件｜常规

<br>

读取当前目录下 `Titanic.txt` 文件。

注意：在接下来的几种格式文件读取中，对于之前重复的参数/功能将不再整理，仅介绍读取功能。

In [5]:
data = pd.read_table(
    "./TOP250.txt", 
    sep="\t", 
    encoding="gbk"
)
data.head(1)

Unnamed: 0,片名,上映年份,评分,评价人数,导演,编剧,主演,类型,国家/地区,语言,时长(分钟)
0,肖申克的救赎,1994,9.7,2317937,弗兰克·德拉邦特,弗兰克·德拉邦特 / 斯蒂芬·金,蒂姆·罗宾斯 / 摩根·弗里曼 / 鲍勃·冈顿 / 威廉姆·赛德勒 / 克兰西·布朗 / 吉...,剧情 / 犯罪,美国,英语,142


### 19 读取 JSON 文件



<br>

读取当前目录下 `某基金数据.json` 文件。

In [59]:
data = pd.read_json("./某基金数据.json")
data.head()

Unnamed: 0,净值日期,单位净值,累计净值,日增长率,申购状态,赎回状态,分红送配
0,2020-02-13,1.884,1.884,-0.11%,开放申购,开放赎回,
1,2020-02-12,1.886,1.886,3.34%,开放申购,开放赎回,
2,2020-02-11,1.825,1.825,-0.16%,开放申购,开放赎回,
3,2020-02-10,1.828,1.828,1.33%,开放申购,开放赎回,
4,2020-02-07,1.804,1.804,0.61%,开放申购,开放赎回,


### 22 从 SQL 读取数据

<br>

有时我们需要从 `SQL` 中读取数据，如果先将数据导出再`pandas`读取并不是一个合适的选择。

在 `pandas` 中支持直接从 `sql` 中查询并读取。

为了方便统一操作，请先执行下面的代码创建数据。

In [65]:
from sqlite3 import connect
conn = connect(':memory:')
df = pd.DataFrame(
    data=[[0, '10/11/12'], 
          [1, '12/11/10']],
    columns=['int_column', 
             'date_column'])
df.to_sql('test_data', conn)

2

下面将 `SQL` 语句 `SELECT int_column, date_column FROM test_data` 转换为 `DataFrame`

In [123]:
pd.read_sql(
    'SELECT int_column, date_column FROM test_data', 
    conn)

Unnamed: 0,int_column,date_column
0,0,10/11/12
1,1,12/11/10


### 24 循环读取数据

<br>

在本小节 `demodata` 文件夹下有多个 `Excel` 文件，要求一次性循环读取全部文件

In [None]:
import os
path = 'demodata/'
filesnames = os.listdir(path)
filesnames = [f for f in filesnames if f.lower().endswith(".xlsx")]
df_list = []
for filename in filesnames:
    df_list.append(pd.read_excel(path + filename))

df = pd.concat(df_list)

## 1-2 数据创建

<br>

除了直接读取本地文件，学会直接创建数据框也很重要，常见于测试一些函数，下面是从常见数据结构创建数据框的方法整理

### 25 从列表创建

<br>

将下面的 `list` 转换为 `dataframe`，并指定列名为`"早起Python"`

In [67]:
l = [1,2,3,4,5]

In [70]:
data = pd.DataFrame(l)
data.T

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,5


### 26 从列表创建｜嵌套列表

<br>

将下面的 `list` 转换为 `dataframe`，并指定行索引为`"公众号","早起Python"`

In [71]:
l = [[1,2,3],[4,5,6]]

In [73]:
data = pd.DataFrame(l)
data

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


### 27 从字典创建

执行下方代码，并将字典转换为`dataframe`

In [74]:
d = {
    "one": pd.Series([1.0, 2.0, 3.0], 
                     index=["a", "b", "c"]),
    "two": pd.Series([1.0, 2.0, 3.0, 4.0],
                     index=["a", "b", "c", "d"]) }

In [77]:
data = pd.DataFrame(d)
data.T

Unnamed: 0,a,b,c,d
one,1.0,2.0,3.0,
two,1.0,2.0,3.0,4.0


### 28 从字典创建｜指定索引

<br>

还是上一题的字典`d`，将其转换为`dataframe`并指定索引顺序为 `d、b、a`

In [79]:
data = pd.DataFrame(
    d, 
    index={'d','b','a'}
)
data.head()

Unnamed: 0,one,two
b,2.0,2.0
a,1.0,1.0
d,,4.0


### 29 从字典创建｜指定列名

<br>

还是上一题的字典`d`，将其转换为`dataframe`并指定索引顺序为 `d、b、a`，列名为`"two", "three"`

In [82]:
data = pd.DataFrame(d, 
                    index={"d","b","a"}, 
                    columns=["two", "three"])
data.T

Unnamed: 0,b,a,d
two,2.0,1.0,4.0
three,,,


### 30 从字典创建｜字典列表
<br>

将下方列表型字典转换为`dataframe`

思考：如何指定行/列索引？

In [None]:
d = [{"a": 1, "b": 2}, 
     {"a": 5, "b": 10, "c": 20}]

### 31 从集合创建

<br>

将下面的元组转换为 dataframe 且行列索引均为 `1,2,3,4`

In [83]:
t =((1,0,0,0,),
    (2,3,0,0,),
    (4,5,6,0,),
    (7,8,9,10,))

In [85]:
data = pd.DataFrame(t)
data

Unnamed: 0,0,1,2,3
0,1,0,0,0
1,2,3,0,0
2,4,5,6,0
3,7,8,9,10


## 1-3 数据存储

### 32 保存为 CSV

<br>

将第三题读取到的数据保存为 `csv` 格式至当前目录下（文件名任意）

In [86]:
data = pd.read_csv(
    "某招聘网站数据.csv",
    nrows = 20)

In [88]:
data.to_csv("test.csv")

### 33 保存为 CSV｜指定列

<br>

将第三题读取到的数据保存为 `csv` 格式至当前目录下（文件名任意），且只保留`positionName、salary`两列

In [None]:
data.to_csv(
    "out.csv",
    encoding = 'utf_8_sig',
    columns=['positionName',
             'salary']
)

### 34 保存为 CSV｜取消索引

<br>

将第三题读取到的数据保存为 `csv` 格式至当前目录下（文件名任意），且取消每一行的索引

In [91]:
data.to_csv(
    "test.csv", 
    index=False, 
    encoding="utf-16"
)

### 35 保存为 CSV｜标记缺失值

<br>

在上一题的基础上，在保存的同时，将缺失值标记为`'数据缺失'`

In [92]:
data.to_csv("test.csv", 
            na_rep="数据缺失")