# pandas：数据分析工具
> 胥嘉政 xjz22@mails.tsinghua.edu.cn

* pandas 是一个快速、强大、灵活且易于使用的开源数据分析和操作工具。
* pandas是基于NumPy数组构建的，拥有与Numpy高度相似的语法设计。
* pandas的主要功能：
    * 数据结构DataFrame、Series
    * 集成时间序列功能
    * 提供丰富的数学运算和操作
    * 灵活处理缺失数据

In [1]:
! pip3 install pandas
import pandas as pd



* pandas主要数据结构：
    * Series：一维数据对象
    * DataFrame：二维数据对象

## Series：一维数据对象

In [2]:
# Series是一种类似于一维数组的对象，由一组数据和一组与之相关的数据标签（索引）组成

# 不指定索引
sr1 = pd.Series([4,7,-5,3])

# 指定索引
sr2 = pd.Series([4,7,-5,3],index=['a','b','c','d'])
sr3 = pd.Series({'a':4, 'b':7, 'c':-5, 'd':3})

print(sr1)
print(sr2)
print(sr3)

0    4
1    7
2   -5
3    3
dtype: int64
a    4
b    7
c   -5
d    3
dtype: int64
a    4
b    7
c   -5
d    3
dtype: int64


In [3]:
# 获取Series的各部分

sr = pd.Series({'a':4, 'b':7, 'c':-5, 'd':3})
print(sr.values) # 获取值数组
print(sr.index) # 获取索引（Index类，可转换为数组）
print(sr.dtype) # 获取值的类型

[ 4  7 -5  3]
Index(['a', 'b', 'c', 'd'], dtype='object')
int64


### Series特性
Series可以看做具有NumPy一维数组和字典两种特性的对象，既继承了NumPy的很多特性，也可以通过类似字典键的索引来检索数据。

In [4]:
# Series支持数组的特性
sr = pd.Series({'a':4, 'b':7, 'c':-5, 'd':3})
print(sr**2) # 数组的每个元素都平方
print(sr[sr>0]) # 获取大于0的元素

a    16
b    49
c    25
d     9
dtype: int64
a    4
b    7
d    3
dtype: int64


In [5]:
# Series支持字典的特性
sr = pd.Series({'a':4, 'b':7, 'c':-5, 'd':3})
print(sr[['a','b']]) # 获取索引为a和b的元素
print(sr['a':'c']) # 获取索引为a到c的元素

a    4
b    7
dtype: int64
a    4
b    7
c   -5
dtype: int64


In [6]:
# Series整数型索引

sr = pd.Series([4,7,-5,3],index=[2,3,4,5])
print(sr[2]) # 以索引解释
print(sr.loc[2]) # 以索引解释
print(sr.iloc[2]) # 以下标解释

4
4
-5


## DataFrame：二维数据对象

DataFrame是一个表格型的数据结构，含有一组有序的列，每列可以是不同的值类型。

In [7]:
data = {
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 
    'year': [2000, 2001, 2002, 2001, 2002, 2003], 
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
}
df = pd.DataFrame(data)
print(df)

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2


In [8]:
# DataFrame还有其他创建方式，支持从列表、字典、数组、Series对象等多种方式传入。

pd1 = pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})
pd2 = pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']), 
'two':pd.Series([1,2,3,4],index=['b','a','c','d'])})

print(pd1)
print(pd2)

   one  two
0    1    4
1    2    3
2    3    2
3    4    1
   one  two
a  1.0    2
b  2.0    1
c  3.0    3
d  NaN    4


#### 获取DataFramed 各部分：
* df.index 获取行索引
* df.columns 获取列索引
* df.values 获取值数组
* df.dtypes 获取各列的数据类型
* df.to_numpy() 转换为NumPy数组
* df.T 转置
* df.describe() 获取快速统计（mean，std …）

### DataFrame索引与切片

DataFrame对象有行索引和列索引两个维度的索引，同样也可以通过下标和索引键两种方式获取值。

* 获取一列数据
    * df['state'] # 返回state列的Series
* 获取值（推荐使用loc/iloc属性）：
    * df.loc[3, 'pop'] # 获取行索引为3，列索引为pop的值
    * df.iloc[2, 0] # 获取第2行第0列的值
* 同时支持切片以及NumPy中的布尔型索引以及花式索引
    * df[['state', 'pop']]
    * df.loc[:3, ['year', 'state']]
    * df.loc[:, 'year':'pop']
    * df.iloc[[1,2,4], [0,2]]
    * del df['pop'] # 删除pop一列
    * df[df['state']=='Ohio'] # 布尔型索引
    * df[df['year'].isin([2000, 2002])]

### DataFrame文件读写

#### 从CSV文件读取
* pd.read_csv(filepath, …) # 读取csv文件
* pd.read_excel(filepath, …) # 读取excel文件

主要参数：
* sep 指定列分隔符，支持正则表达式
* header 指定文件首行是否为列索引
* name 手动指定列索引
* index_col 指定某列作为行索引

#### 向CSV文件写入
* df.to_csv(filepath, …) # 写入到csv文件

主要参数：
* sep 指定列分隔符
* header 指定是否写入列索引
* index 指定是否写入行索引

#### 其他文件类型
pandas还支持读取和写入到json、XML、数据库等多种类型。

参阅https://pandas.pydata.org/docs/user_guide/io.html

In [9]:
data = {
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 
    'year': [2000, 2001, 2002, 2001, 2002, 2003], 
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
}
df = pd.DataFrame(data)
df.to_csv("pandas_output.csv",index=False)
df_read = pd.read_csv("pandas_output.csv")
print(df_read)

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2


## pandas：数据对齐

In [10]:
# pandas进行两个Series或DataFrame的运算时，会按照索引进行对齐。例：
sr1 = pd.Series([12,23,34], index=['c','a','d'])
sr2 = pd.Series([11,20,10], index=['d','c','a'])
sr1+sr2

a    33
c    32
d    45
dtype: int64

In [11]:
sr1 = pd.Series([12,23,34], index=['c','a','d'])
sr3 = pd.Series([11,20,10,14], index=['d','c','a','b'])
sr1+sr3

a    33.0
b     NaN
c    32.0
d    45.0
dtype: float64

#### 灵活的算术方法
可以在数据对齐过程中在找不到对应值的对象中填充一个特殊值（一般是0）。

例如：sr1.add(sr2, fill_value=0)

灵活的算术方法：
* add, radd +
* sub, rsub -
* div, rdiv /
* floordiv, rfloordiv //
* mul, rmul *
* pow, rpow **

In [12]:
sr1 = pd.Series([12,23,34], index=['c','a','d'])
sr3 = pd.Series([11,20,10,14], index=['d','c','a','b'])
sr1.add(sr3, fill_value=0)

a    33.0
b    14.0
c    32.0
d    45.0
dtype: float64

### 缺失数据处理

在数据分析工作中，很容易出现缺失数据（NaN），其值等于np.nan。内置的None值也会被当做NaN处理。

检测缺失数据：isnull()方法

In [13]:
sr = pd.Series([4,None,-5,3],index=['a','b','c','d'])
print(sr.isnull())
data = {
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 
    'year': [2000, 2001, None, 2001, 2002, 2003], 
    'pop': [1.5, 1.7, 3.6, None, 2.9, 3.2]
}
df = pd.DataFrame(data)
print(df.isnull())

a    False
b     True
c    False
d    False
dtype: bool
   state   year    pop
0  False  False  False
1  False  False  False
2  False   True  False
3  False  False   True
4  False  False  False
5  False  False  False


缺失数据的处理方式一般有两种：滤除缺失数据与填充缺失数据。

In [14]:
# 滤除缺失数据：dropna()方法

sr = pd.Series([4,None,-5,3],index=['a','b','c','d'])
sr_dropna = sr.dropna()
print(sr)
print(sr_dropna)

a    4.0
b    NaN
c   -5.0
d    3.0
dtype: float64
a    4.0
c   -5.0
d    3.0
dtype: float64


In [15]:
data = {
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 
    'year': [2000, 2001, None, 2001, 2002, 2003], 
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
}
df = pd.DataFrame(data)

# DataFrame会过滤掉有缺失值的行。
df1 = df.dropna()

# 传入how='all'参数将只丢弃全为NaN的行。
df2 = df.dropna(how='all')

# 传入axis=1参数将丢弃列而非行。
df3 = df.dropna(axis=1)

print(df1)
print(df2)
print(df3)

    state    year  pop
0    Ohio  2000.0  1.5
1    Ohio  2001.0  1.7
3  Nevada  2001.0  2.4
4  Nevada  2002.0  2.9
5  Nevada  2003.0  3.2
    state    year  pop
0    Ohio  2000.0  1.5
1    Ohio  2001.0  1.7
2    Ohio     NaN  3.6
3  Nevada  2001.0  2.4
4  Nevada  2002.0  2.9
5  Nevada  2003.0  3.2
    state  pop
0    Ohio  1.5
1    Ohio  1.7
2    Ohio  3.6
3  Nevada  2.4
4  Nevada  2.9
5  Nevada  3.2


#### 填充缺失数据：fillna()方法
* 传入一个常数会将所有缺失值替换为0
    * df.fillna(0) # 填充为0
* 传入一个字典，可以对不同的列填充不同值。
    * df.fillna({0:-1, 1:1}) # 第0列填充为-1，第1列填充为1
* 传入method参数，可以使用其临近值进行填充
    * pad/ffill # 将缺失值填充为其前面的值
    * bfill/backfill # 将缺失值填充为其后面的值

#### 插值：interpolate()方法
* 例：df.interpolate(method='linear') # 进行线性插值
* 其他插值方法参数请参阅https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.interpolate.html

### pandas：其他常用方法

#### 统计方法：
```python
pd.mean(axis=0, skipna=True) # 按列求均值
pd.sum(axis=0, skipna=True) # 按列求和
```

#### 排序方法
```python
sort_index(axis=0,…,ascending=True) # 按行索引排序
sort_values(by, axis=0, ascending=True) # 按某列值排序
```

#### 自定义批量函数
```python
apply(func,axis=0) # 将自定义函数应用在各列上
applymap(func) # 将自定义函数应用在DataFrame各元素上
map(func) #将自定义函数应用在Series各元素上
```

### pandas：数据的合并

In [16]:
data = [{
    'A': [f'A{i}' for i in range(2*(j-1), 2*j)],
    'B': [f'B{i}' for i in range(2*(j-1), 2*j)],
    'C': [f'C{i}' for i in range(2*(j-1), 2*j)],
} for j in range(1, 4)]
df1 = pd.DataFrame(data[0])
df2 = pd.DataFrame(data[1])
df3 = pd.DataFrame(data[2])
df_concat1 = pd.concat([df1, df2, df3])
print(df_concat1)
df_concat2 = pd.concat([df1, df2, df3], axis=1)
print(df_concat2)
df_concat3 = df1.append(df2).append(df3)
print(df_concat3)

    A   B   C
0  A0  B0  C0
1  A1  B1  C1
0  A2  B2  C2
1  A3  B3  C3
0  A4  B4  C4
1  A5  B5  C5
    A   B   C   A   B   C   A   B   C
0  A0  B0  C0  A2  B2  C2  A4  B4  C4
1  A1  B1  C1  A3  B3  C3  A5  B5  C5
    A   B   C
0  A0  B0  C0
1  A1  B1  C1
0  A2  B2  C2
1  A3  B3  C3
0  A4  B4  C4
1  A5  B5  C5


  df_concat3 = df1.append(df2).append(df3)


#### 数据的连接（join）：pd.merge()

```python
pd.merge(df1, df2, on='key', how='inner') # df1和df2在key列上进行内连接（how参数可以选择inner, outer, left, right） 
pd.merge(df1, df2, left_on='key_left',right_on='key_right', how='inner') # 分别指定两个DataFrame要连接的列名
```

### pandas：数据分组与聚合

In [17]:
data = {
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 
    'year': [2000, 2001, None, 2001, 2002, 2003], 
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
}
df = pd.DataFrame(data)
groups = df.groupby('state')
print(groups.groups)
print(groups.get_group('Ohio'))

{'Nevada': [3, 4, 5], 'Ohio': [0, 1, 2]}
  state    year  pop
0  Ohio  2000.0  1.5
1  Ohio  2001.0  1.7
2  Ohio     NaN  3.6


#### 聚合：在每个组中应用聚合函数

```python
# pandas内置聚合函数：max() min() count() mean() sum() …
df.groupby('state').count()
# 自定义聚合函数：agg(func)
df.groupby('state').agg(lambda x:x.max()-x.min()) # 聚合函数为极差
```

pandas还有大量的函数和功能由于时间限制无法介绍，可参阅官方文档了解`https://pandas.pydata.org/docs/user_guide/`
* 层次化索引
* 数据透视表与交叉表
* 时间序列
* 稀疏数据结构
* 类别型数据