# 4.1 数据容器

**推荐学习资料：**[Joyful Pandas 第二章](http://joyfulpandas.datawhale.club/Content/ch2.html)

In [1]:
!pip install xlrd==1.2.0

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting xlrd==1.2.0
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/b0/16/63576a1a001752e34bf8ea62e367997530dc553b689356b9879339cf45a4/xlrd-1.2.0-py2.py3-none-any.whl (103 kB)
Installing collected packages: xlrd
Successfully installed xlrd-1.2.0


In [2]:
!pip install openpyxl

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting openpyxl
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/39/08/595298c9b7ced75e7d23be3e7596459980d63bc35112ca765ceccafbe9a4/openpyxl-3.0.7-py2.py3-none-any.whl (243 kB)
Collecting et-xmlfile
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/96/c2/3dd434b0108730014f1b96fd286040dc3bcb70066346f7e01ec2ac95865f/et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.1.0 openpyxl-3.0.7


安装相关软件包后，需要按下图所示操作，重启下编程环境就可以加载自己安装的包啦。
<img src="https://img.alicdn.com/imgextra/i4/O1CN01NgdOUf1TnbuZKn48O_!!6000000002427-2-tps-586-223.png" width=70%>

In [3]:
import pandas as pd

## 1. 文件读写
pandas可以读写的文件格式有很多，这里主要介绍读取csv, excel, txt文件。

In [4]:
df_csv = pd.read_csv('../data/my_csv.csv')
df_csv

FileNotFoundError: [Errno 2] No such file or directory: 'my_csv.csv'

In [3]:
df_txt = pd.read_table('my_table.txt')
df_txt

Unnamed: 0,col1,col2,col3,col4
0,2,a,1.4,apple 2020/1/1
1,3,b,3.4,banana 2020/1/2
2,6,c,2.5,orange 2020/1/5
3,5,d,3.2,lemon 2020/1/7


In [4]:
df_excel = pd.read_excel('my_excel.xlsx')
df_excel

Unnamed: 0,col1,col2,col3,col4,col5
0,2,a,1.4,apple,2020/1/1
1,3,b,3.4,banana,2020/1/2
2,6,c,2.5,orange,2020/1/5
3,5,d,3.2,lemon,2020/1/7


一般在数据写入中，最常用的操作是把index设置为False，特别当索引没有特殊意义的时候，这样的行为能把索引在保存的时候去除。

In [5]:
df_csv.to_csv('my_csv_saved.csv', index=False)
df_excel.to_excel('my_excel_saved.xlsx', index=False)

pandas中没有定义to_table函数，但是to_csv可以保存为txt文件，并且允许自定义分隔符，常用制表符\t分割：

In [6]:
df_txt.to_csv('my_txt_saved.txt', sep='\t', index=False)

## 2. 一维数据的容器————Series

Series一般由四个部分组成，分别是序列的值data、索引index、存储类型dtype、序列的名字name。其中，索引也可以指定它的名字，默认为空。

In [7]:
s = pd.Series(data = [100, 'a', {'dic1':5}],
              index = pd.Index(['id1', 20, 'third'], name='my_idx'),
              dtype = 'object',
              name = 'my_name')
s

my_idx
id1              100
20                 a
third    {'dic1': 5}
Name: my_name, dtype: object

对于这些属性，可以通过 . 的方式来获取：

In [8]:
s.values

array([100, 'a', {'dic1': 5}], dtype=object)

In [9]:
s.index

Index(['id1', 20, 'third'], dtype='object', name='my_idx')

In [10]:
s.dtype

dtype('O')

In [12]:
s.name

'my_name'

利用.shape可以获取序列的长度：

In [13]:
s.shape

(3,)

## 3. 二维数据的容器————DataFrame

DataFrame在Series的基础上增加了列索引，一个数据框可以由二维的data与行列索引来构造：

In [14]:
data = [[1, 'a', 1.2], [2, 'b', 2.2], [3, 'c', 3.2]]
df = pd.DataFrame(data = data,
                  index = ['row_%d'%i for i in range(3)],
                  columns=['col_0', 'col_1', 'col_2'])
df

Unnamed: 0,col_0,col_1,col_2
row_0,1,a,1.2
row_1,2,b,2.2
row_2,3,c,3.2


但一般而言，更多的时候会采用从列索引名到数据的映射来构造数据框，同时再加上行索引：

In [15]:
df = pd.DataFrame(data = {'col_0': [1,2,3],
                          'col_1':list('abc'),
                          'col_2': [1.2, 2.2, 3.2]},
                  index = ['row_%d'%i for i in range(3)])
df

Unnamed: 0,col_0,col_1,col_2
row_0,1,a,1.2
row_1,2,b,2.2
row_2,3,c,3.2


由于这种映射关系，在DataFrame中可以用[col_name]与[col_list]来取出相应的列与由多个列组成的表，结果分别为Series和DataFrame：

In [16]:
df['col_0']

row_0    1
row_1    2
row_2    3
Name: col_0, dtype: int64

In [17]:
df[['col_0', 'col_1']]

Unnamed: 0,col_0,col_1
row_0,1,a
row_1,2,b
row_2,3,c


与Series类似，在数据框中同样可以取出相应的属性：

In [18]:
df.values

array([[1, 'a', 1.2],
       [2, 'b', 2.2],
       [3, 'c', 3.2]], dtype=object)

In [19]:
df.index

Index(['row_0', 'row_1', 'row_2'], dtype='object')

In [20]:
df.columns

Index(['col_0', 'col_1', 'col_2'], dtype='object')

In [21]:
df.dtypes # 返回的是值为相应列数据类型的Series

col_0      int64
col_1     object
col_2    float64
dtype: object

In [22]:
df.shape

(3, 3)

通过.T可以把DataFrame进行转置：

In [23]:
df.T

Unnamed: 0,row_0,row_1,row_2
col_0,1,2,3
col_1,a,b,c
col_2,1.2,2.2,3.2


## 4. 常用函数



为了进行举例说明，在接下来的部分和其余章节都将会使用一份learn_pandas.csv的虚拟数据集，它记录了四所学校学生的体测个人信息。

In [24]:
df = pd.read_csv('learn_pandas.csv')
df.columns

Index(['School', 'Grade', 'Name', 'Gender', 'Height', 'Weight', 'Transfer',
       'Test_Number', 'Test_Date', 'Time_Record'],
      dtype='object')

上述列名依次代表学校、年级、姓名、性别、身高、体重、是否为转系生、体测场次、测试时间、1000米成绩，本章只需使用其中的前七列。

In [25]:
df = df[df.columns[:7]]

### 4.1 head与tail

head, tail函数分别表示返回表或者序列的前n行和后n行，其中n默认为5：

In [26]:
df.head(2)

Unnamed: 0,School,Grade,Name,Gender,Height,Weight,Transfer
0,Shanghai Jiao Tong University,Freshman,Gaopeng Yang,Female,158.9,46.0,N
1,Peking University,Freshman,Changqiang You,Male,166.5,70.0,N


In [27]:
df.tail(3)

Unnamed: 0,School,Grade,Name,Gender,Height,Weight,Transfer
197,Shanghai Jiao Tong University,Senior,Chengqiang Chu,Female,153.9,45.0,N
198,Shanghai Jiao Tong University,Senior,Chengmei Shen,Male,175.3,71.0,N
199,Tsinghua University,Sophomore,Chunpeng Lv,Male,155.7,51.0,N


### 4.2 统计函数

在Series和DataFrame上定义了许多统计函数，最常见的是sum, mean, median, var, std, max, min。例如，选出身高和体重列进行演示：

In [28]:
df_demo = df[['Height', 'Weight']]
df_demo.mean()

Height    163.218033
Weight     55.015873
dtype: float64

### 4.3 排序函数

对身高进行排序，默认参数ascending=True为升序：

In [29]:
df_demo.sort_values('Height').head()

Unnamed: 0,Height,Weight
143,145.4,34.0
49,147.3,34.0
120,147.8,34.0
30,148.7,41.0
80,150.5,40.0


In [30]:
df_demo.sort_values('Height', ascending=False).head()

Unnamed: 0,Height,Weight
193,193.9,79.0
2,188.9,89.0
134,186.5,83.0
38,185.3,87.0
23,183.9,87.0


在排序中，经常遇到多列排序的问题，比如在体重相同的情况下，对身高进行排序，并且保持身高降序排列，体重升序排列：

In [31]:
df_demo.sort_values(['Weight','Height'],ascending=[True,False]).head()

Unnamed: 0,Height,Weight
120,147.8,34.0
49,147.3,34.0
143,145.4,34.0
139,150.5,36.0
108,152.4,38.0
