# Pandas Series & DataFrame
---

Pandas 是构建在 NumPy 的基础上的，所以一般我们在需要把 pandas 导入进来的时候，最好把 numpy 也一起导入。

Pandas 主要的数据类型：pandas.Series、pandas.Dataframe

In [3]:
import numpy as np
import pandas as pd

#### 课程内容

1. Series 创建及基本用法
2. DataFrame 创建及基本用法
3. DataFrame 索引和切片
4. DataFrame 数据处理

---
### 1. Series 创建及基本用法

可以通过 `pandas.Series()` 函数创建 Series。

`Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)`

In [None]:
arr = np.arange(5,10)
arr

In [None]:
s = pd.Series(arr)                           # 通过 Ndarray 创建 Series
s

In [None]:
s.values                                     # Series 的值是 Ndarray

In [None]:
s.index = ['a','b','c','d','e']             # 设置 Series 的 index
s

In [None]:
s.index = pd.date_range('20200224',periods=5)     # pandas.date_range() 函数可以生成时间序列
s

In [None]:
s[0]                       # 通过位置获取数据，类似列表索引

In [None]:
s['2020-02-24']            # 也可以通过标签获取数据，类似字典取值

#### 1.1 Series 创建

通过数组类型（List、Tuple、Ndarray）或者字典（Dictionary）创建。

In [None]:
pd.Series(range(5,10))           # 通过 range() 函数创建

In [None]:
pd.Series([5,6,7,8,9])           # 通过列表创建 

In [None]:
pd.Series((5,6,7,8,9))           # 通过元组创建 

In [None]:
pd.Series(np.arange(5,10))       # 通过 Ndarray 创建

In [None]:
pd.Series({'a': 5, 'b': 6, 'c': 7, 'd': 8, 'e': 9})          # 通过字典创建

In [None]:
pd.Series(range(5,10), index=list('abcde'))        # 自定义 index

In [None]:
pd.Series(range(5,10), index=list('aacde'))        # index 可以重复，和字典区别

#### 1.2 Series 基本属性

In [None]:
s = pd.Series(range(5,10), index=list('abcde'))
s

In [None]:
type(s)

In [None]:
s.values                      # 可以获得序列的值

In [None]:
type(s.values)                # series 其实是由 ndarray 构成的

In [None]:
s.index                       # 获取 index

In [None]:
s.index.name = 'Index'        # index 的名字

In [None]:
s

In [None]:
s.name = 'Series1'            # series 的名字

In [None]:
s

查看数据

In [None]:
s.head(2)                    # 查看前几个数（默认前 5 个）

In [None]:
s.tail(2)

#### 1.3 Series 索引和切片

In [None]:
s

In [None]:
s[0]                  # 类似列表索引和切片

In [None]:
s[:3]                

In [None]:
s[s > 7]             # 布尔索引

In [None]:
s['b']

In [None]:
s = pd.Series(range(5,10), index=list('aacde'))
s

In [None]:
s['a']              # 如果 index 中有重复值，则选取所有符合条件的值

In [None]:
s['a':'d']          # 切片，使用标签时双闭区间

In [None]:
s[['a', 'd']]       # 不连续索引，通过列表传递

In [None]:
s[[0, 3]]           # 不连续索引，也可以使用位置

---
### 2. DataFrame 创建及基本用法

可以通过 `pandas.DataFrame()` 函数创建 DataFrame。

`DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)`

Series 为一维序列，没有 columns 参数；DataFrame 为二维表格，有 columns 参数，可以有多列。

#### 2.1 DataFrame 创建

通过数组构建 DataFrame

In [4]:
arr = np.random.randn(6,4)
arr

array([[ 0.86738503,  0.2247976 ,  0.40385957, -0.1900774 ],
       [-1.20020638,  0.53017445, -0.33387333,  0.36126662],
       [ 0.16634003,  0.80575562, -1.22071982,  0.16634244],
       [ 0.03867454,  0.40865212,  2.01163785,  1.56988102],
       [-1.39381142, -0.47142076,  0.7117082 ,  0.76766187],
       [-0.05533728,  0.5300028 , -1.36546864, -0.66040543]])

In [5]:
df = pd.DataFrame(arr)              #通过 Ndarray 构建 Dataframe，如果没有声明，默认的行索引和列索引都是 0,1,2...
df

Unnamed: 0,0,1,2,3
0,0.867385,0.224798,0.40386,-0.190077
1,-1.200206,0.530174,-0.333873,0.361267
2,0.16634,0.805756,-1.22072,0.166342
3,0.038675,0.408652,2.011638,1.569881
4,-1.393811,-0.471421,0.711708,0.767662
5,-0.055337,0.530003,-1.365469,-0.660405


In [6]:
df = pd.DataFrame(arr, columns = list('abcd'), index = list('ABCDEF') )    # 构建的时候明确了行和列的标签
df

Unnamed: 0,a,b,c,d
A,0.867385,0.224798,0.40386,-0.190077
B,-1.200206,0.530174,-0.333873,0.361267
C,0.16634,0.805756,-1.22072,0.166342
D,0.038675,0.408652,2.011638,1.569881
E,-1.393811,-0.471421,0.711708,0.767662
F,-0.055337,0.530003,-1.365469,-0.660405


通过字典构建 DataFrame

In [7]:
dict_data = {'姓名': ['张三','张四','张五'],
             '单选' : pd.Series([20, 12, 16]),
             '多选':[16, 12, None],
             '解答':(48, 36, 40)}

df = pd.DataFrame(dict_data)
df

Unnamed: 0,姓名,单选,多选,解答
0,张三,20,16.0,48
1,张四,12,12.0,36
2,张五,16,,40


#### 2.2 DataFrame 基本属性

In [8]:
df

Unnamed: 0,姓名,单选,多选,解答
0,张三,20,16.0,48
1,张四,12,12.0,36
2,张五,16,,40


In [None]:
df.index           # 获得index

In [None]:
df.columns         # 获得列名

In [None]:
df.shape           # DataFrame 形状

In [None]:
df.values          # DataFrame 的值也是 Ndarray

In [None]:
df['单选']       # DataFrame 每一列是 Series

In [None]:
type(df['单选'])

---
### 3. DataFrame 索引和切片

#### 3.1 位置索引 - iloc

使用 `iloc` 方法可以对 Dataframe 通过位置索引，可以同时对行和列索引。

`df.iloc[row,col]`：位置索引，选择 row 行 col 列的数据。

`df.iloc[row1:row2,col1:col2]`：连续切片，选择 row1 行至 row2 行的 col1 列至 col2 列（不包含）的数据。

`df.iloc[row1:row2:s,col1:col2:s]`：等距连续切片，选择 row1 行至 row2 行 步长为 s 的 col1 列至 col2 列（不包含）步长为 s 的数据。

`df.iloc[[row1,row2],[col1,col2]]`：不连续切片，选择 row1 行和 row2 行的 col1 列和 col2 列的数据。

逗号前为行索引，逗号后为列索引。如果没有逗号，默认是按行进行。连续切片时区间为 **左闭右开**。

In [None]:
df = pd.DataFrame(np.random.rand(4,5), columns=['A','B','C','D','E'], index=['a','b','c','d'])  

df                                  # 创建 DataFrame

In [None]:
df.iloc[0,0]                        # 位置索引获取某值

In [None]:
df.iloc[:3,:4]                      # 通过位置连续切片

In [None]:
df.iloc[:3:2,:4:2]                  # 通过位置步长为2连续切片 

In [None]:
df.iloc[:,[0,2]]                # 通过位置不连续切片

#### 3.2 标签索引 - loc

使用 `loc` 方法可以对 Dataframe 通过标签索引，可以同时对行和列索引。

`df.loc[row,col]`：标签索引，选择 row 行 col 列的数据。

`df.loc[row1:row2,col1:col2]`：连续切片，选择 row1 行至 row2 行的 col1 列至 col2 列（包含）的数据。

`df.loc[row1:row2:s,col1:col2:s]`：等距连续切片，选择 row1 行至 row2 行 步长为 s 的 col1 列至 col2 列（包含）步长为 s 的数据。

`df.loc[[row1,row2],[col1,col2]]`：不连续切片，选择 row1 行和 row2 行的 col1 列和 col2 列的数据。

逗号前为行索引，逗号后为列索引。如果没有逗号，默认是按行进行。连续切片时区间为 **前闭后闭**。

In [None]:
df = pd.DataFrame(np.random.rand(4,5), columns=['A','B','C','D','E'], index=['a','b','c','d'])  

df                                  # 创建 DataFrame

In [None]:
df.loc['a','A']                     # 标签索引获取某值

In [None]:
df.loc['a':'c','A':'D']             # 通过标签连续切片

In [None]:
df.loc['a':'c':2,'A':'D':2]        # 通过标签步长为2连续切片

In [None]:
df.loc[['a','c'],['A','D']]        # 通过标签不连续切片

#### 3.3 选取一列

选取一列：`df['column']` 或 `df.column`

In [9]:
df = pd.DataFrame(np.random.rand(4,5), columns=['A','B','C','D','E'], index=['a','b','c','d'])  

df                                  # 创建 DataFrame

Unnamed: 0,A,B,C,D,E
a,0.42136,0.912898,0.587101,0.97006,0.369928
b,0.836757,0.636136,0.022587,0.559768,0.597086
c,0.580901,0.581265,0.867174,0.629183,0.824134
d,0.660698,0.782156,0.520539,0.792548,0.302541


In [10]:
df.iloc[:, 0]

a    0.421360
b    0.836757
c    0.580901
d    0.660698
Name: A, dtype: float64

In [11]:
df.loc[:, 'A']

a    0.421360
b    0.836757
c    0.580901
d    0.660698
Name: A, dtype: float64

In [12]:
df['A']

a    0.421360
b    0.836757
c    0.580901
d    0.660698
Name: A, dtype: float64

In [13]:
df.A

a    0.421360
b    0.836757
c    0.580901
d    0.660698
Name: A, dtype: float64

#### 3.4 选取不连续的几列

对列不连续切片用列标签：`df[['column1', 'column2']]`

注意传入参数应为一个包含列标签的列表。

In [14]:
df = pd.DataFrame(np.random.rand(4,5), columns=['A','B','C','D','E'], index=['a','b','c','d'])  

df                                  # 创建 DataFrame

Unnamed: 0,A,B,C,D,E
a,0.720832,0.443057,0.92333,0.64584,0.009164
b,0.677122,0.964711,0.546272,0.224076,0.583718
c,0.489612,0.58242,0.058876,0.91363,0.060421
d,0.257884,0.998277,0.199279,0.669148,0.963904


In [16]:
df[['A','B']]                      # 对列不连续切片

Unnamed: 0,A,B
a,0.720832,0.443057
b,0.677122,0.964711
c,0.489612,0.58242
d,0.257884,0.998277


#### 3.5 选取连续的几行

对行连续切片可以直接使用 `df[a:b]`，其中如果使用位置索引则是前闭后开（不包含 b），使用标签索引则是双闭区间（包含 b）。

也可以使用 `loc` 或 `iloc` 方法，使用时只需一个参数，不需要逗号。

In [17]:
df = pd.DataFrame(np.random.rand(4,5), columns=['A','B','C','D','E'], index=['a','b','c','d'])  

df                                  # 创建 DataFrame

Unnamed: 0,A,B,C,D,E
a,0.509345,0.258362,0.756573,0.006679,0.674857
b,0.175201,0.638484,0.852491,0.748768,0.613839
c,0.441953,0.160972,0.708285,0.056643,0.898591
d,0.830443,0.560309,0.449293,0.506219,0.298106


In [22]:
df[:2]                             # 通过位置切片，前闭后开

Unnamed: 0,A,B,C,D,E
a,0.509345,0.258362,0.756573,0.006679,0.674857
b,0.175201,0.638484,0.852491,0.748768,0.613839


In [23]:
df[:'b']                           # 通过标签切片，双闭区间

Unnamed: 0,A,B,C,D,E
a,0.509345,0.258362,0.756573,0.006679,0.674857
b,0.175201,0.638484,0.852491,0.748768,0.613839


In [24]:
df.iloc[:2]                        # 通过位置切片

Unnamed: 0,A,B,C,D,E
a,0.509345,0.258362,0.756573,0.006679,0.674857
b,0.175201,0.638484,0.852491,0.748768,0.613839


In [25]:
df.loc[:'b']                       # 通过标签切片

Unnamed: 0,A,B,C,D,E
a,0.509345,0.258362,0.756573,0.006679,0.674857
b,0.175201,0.638484,0.852491,0.748768,0.613839


#### 3.6 布尔索引

In [31]:
d = {'PE' : pd.Series([10., 20., 30., 40.], index=['Company a', 'Company b', 'Company c','Company d']),
     'PB' : pd.Series([2., 3., 2.5, 4.], index=['Company a', 'Company b', 'Company c', 'Company d']),
     'ROE' : pd.Series([0.06, 0.1, 0.08, 0.02], index=['Company a', 'Company b', 'Company c', 'Company d'])}
df = pd.DataFrame(d)
df

Unnamed: 0,PE,PB,ROE
Company a,10.0,2.0,0.06
Company b,20.0,3.0,0.1
Company c,30.0,2.5,0.08
Company d,40.0,4.0,0.02


In [32]:
df['PE'] < 25

Company a     True
Company b     True
Company c    False
Company d    False
Name: PE, dtype: bool

In [33]:
df[df['PE'] < 25]

Unnamed: 0,PE,PB,ROE
Company a,10.0,2.0,0.06
Company b,20.0,3.0,0.1


In [34]:
df[(df['PE'] < 25)  | (df['PB'] < 2.5) ]                    # 多个逻辑条件组合,每个条件需要括号
                                                            #  & |，不能用 and 和 or

Unnamed: 0,PE,PB,ROE
Company a,10.0,2.0,0.06
Company b,20.0,3.0,0.1


In [35]:
df[(df['PE'] < 25) * 1  + (df['PB'] < 2.5) * 1  == 2]                 # 多个逻辑条件

Unnamed: 0,PE,PB,ROE
Company a,10.0,2.0,0.06


In [36]:
df[(df['PE'] < 25) * 1  + (df['PB'] < 2.5) * 1  + (df['ROE']> 0.07) * 1 >= 2]      # 三个当中满足任意两个选股条件

Unnamed: 0,PE,PB,ROE
Company a,10.0,2.0,0.06
Company b,20.0,3.0,0.1


---
### 4. DataFrame 数据处理

#### 4.1 DataFrame 修改

#### 4.1.1 重命名 - rename

`df.rename()` 函数可以修改行列标签名，将 `inplace` 参数值设为 `True` 则改变原 DataFrame。

In [38]:
df = pd.DataFrame(np.random.rand(4,5), columns=['A','B','C','D','E'], index=['a','b','c','d'])  

df                                  # 创建 DataFrame

Unnamed: 0,A,B,C,D,E
a,0.643639,0.910415,0.259347,0.507582,0.875298
b,0.709113,0.419151,0.616905,0.4541,0.733503
c,0.176866,0.320833,0.099648,0.953484,0.737247
d,0.869631,0.037102,0.783414,0.80026,0.019141


In [39]:
df = df.rename(columns={'A':'AA', 'B':'BB'})                 # 重命名列标签，注意要用字典传输

In [40]:
df

Unnamed: 0,AA,BB,C,D,E
a,0.643639,0.910415,0.259347,0.507582,0.875298
b,0.709113,0.419151,0.616905,0.4541,0.733503
c,0.176866,0.320833,0.099648,0.953484,0.737247
d,0.869631,0.037102,0.783414,0.80026,0.019141


In [None]:
df.rename(index={'a':'aa'},inplace=True)     # 重命名行标签，inplace=True 会改变原 DataFrame

In [None]:
df

#### 4.1.2 替换 - replace

`df.replace()` 函数可以将某些值替换为另一个值，将 `inplace` 参数值设为 `True` 则改变原 DataFrame。

In [None]:
df = pd.DataFrame({'code':['000001','000002','000003'],
                   'signal':['buy','sell','buy']})
df

In [None]:
df.replace({'buy': 1, 'sell':-1}, inplace=True)  # 将 DataFrame 中所有的 buy 改为 1，sell 改为 -1
df

#### 4.1.3 设置索引 - set_index

`df.set_index()` 函数可以将 DataFrame 中某一列设为 index，将 `inplace` 参数值设为 `True` 则改变原 DataFrame。

注意如果要将 index 设为不是该 DataFrame 某一列的数据，则使用 `df.index` 属性。

In [None]:
df = pd.DataFrame({'code':['000001','000002','000003'],
                   'signal':['buy','sell','buy']})
df

In [None]:
df.set_index('code', inplace=True)       # 将 'code' 列设为 index
df

#### 4.2 DataFrame 增删列

#### 4.2.1 增加列

增加列使用 `df['New_column'] = `

In [None]:
df = pd.DataFrame({'PE':[10,20,30,40],
                   'PB':[2,3,2.5,4],
                   'ROE':[0.06,0.1,0.08,0.02]}, index=['a','b','c','d'])
df

In [None]:
df['signal'] = np.where(df['PE']>25,1,0)     # 根据PE列的值新建一列signal
df

In [None]:
df['signal'] = [1,1,1,1]
df

#### 4.2.2 删除列

使用 `del` 语句可以删除 DataFrame 中某列。

In [None]:
df = pd.DataFrame({'PE':[10,20,30,40],
                   'PB':[2,3,2.5,4],
                   'ROE':[0.06,0.1,0.08,0.02]}, index=['a','b','c','d'])
df

In [None]:
del df['PE']
df

#### 4.2.3 删除行或列 - drop

`df.drop()` 函数可以删除 DataFrame 中的行或列，将 `inplace` 参数值设为 `True` 则改变原 DataFrame。

默认删除行，删除列时需设置参数 `axis=1`。

In [None]:
df = pd.DataFrame({'PE':[10,20,30,40],
                   'PB':[2,3,2.5,4],
                   'ROE':[0.06,0.1,0.08,0.02]}, index=['a','b','c','d'])
df

In [None]:
df.drop('a')                     # 默认删除行

In [None]:
df.drop(['a','c'])              # 删除几行

In [None]:
df.drop('PE', axis=1)           # axis=1 时删除列

#### 4.3 DataFrame 排序

#### 4.3.1 按索引排序 - sort_index

pandas.Series 和 pandas.DataFrame 的 `sort_index()` 方法可以按索引排序。

`DataFrame.sort_index(axis=0, ascending=True, inplace=False)` 默认按行标签进行升序排序。

`axis=1` 表示对列标签排序；

`ascending=False` 表示降序排序；

`inplace=True` 表示原地修改。

In [37]:
df = pd.DataFrame([[1, np.nan, 3], [4, 5, 6], [7, 8, 9]], columns=['b', 'a', 'c'],index=['x','z','y'])
df

Unnamed: 0,b,a,c
x,1,,3
z,4,5.0,6
y,7,8.0,9


In [None]:
df.sort_index()

In [None]:
df.sort_index(axis=1)                  

#### 4.3.2 按值排序 - sort_values

pandas.Series 和 pandas.DataFrame 的 `sort_values()` 方法可以按值排序。

---
`Series.sort_values(ascending=True, inplace=False)` 默认按值进行升序排序。

常用参数：

`ascending=False` 表示降序排序；

`inplace=True` 表示原地修改。

In [None]:
s = pd.Series([1, 2, np.nan, 4])             

s.sort_values(ascending=False)              # 按值排序                  

---
`DataFrame.sort_values(by, axis=0, ascending=True, inplace=False)` 默认按某列的值对行进行升序排序。

常用参数：

`by` 传入按值排序的某行或某列；

`axis=1` 表示按某行的值对列排序；

`ascending=False` 表示降序排序；

`inplace=True` 表示原地修改。

In [None]:
df = pd.DataFrame([[1, np.nan, 3], [4, 5, 6], [7, 8, 9]], columns=['a', 'b', 'c'],index=['x','z','y'])
df

In [None]:
df.sort_values(by='z', axis=1, ascending=False)  

#### 4.4 DataFrame 统计方法

#### 4.4.1 快速统计 - describe

pandas.Series 和 pandas.DataFrame 的 `describe()` 方法可以快速地获取常用的统计指标汇总。

In [None]:
s = pd.Series([1, 2, None, 4, 5])            # 创建Series

s.describe()                                 # 获取常用的统计数据

In [None]:
df

In [None]:
df = pd.DataFrame([[1, None], [4, 5], [7, 8], [10, 11]], columns=['a', 'b']) 

df.describe()                               # 获得每列汇总统计

#### 4.4.2 统计非空元素 - count

pandas.Series 和 pandas.DataFrame 的 `count()` 方法可以统计非空元素的数量。

In [None]:
s = pd.Series([1, 2, None, 4, 5])           # 创建Series

s.count()                                    # 统计非空元素的数量

In [None]:
df = pd.DataFrame([[1, None], [4, 5], [7, 8], [10, 11]], columns=['a', 'b']) 

df.count()                                  # 统计每列非空元素的数量

#### 4.4.3 分位数 - quantile

pandas.Series 和 pandas.DataFrame 的 `quantile()` 方法可以计算分位数。

In [None]:
s = pd.Series([1, 2, 3, 4, 5], 
              index=['a','b','c','d','e'])   # 创建Series

s.quantile(0.25)                             # 求分位数

In [None]:
df = pd.DataFrame([[1, None], [5, 5], [4, 8], [10, 6]], columns=['a', 'b'],index=['a','b','c','d']) 
    
df.quantile(0.25)                            # 获取每列分位数

#### 4.4.4 协方差 - cov

pandas.Series 和 pandas.DataFrame 的 `cov()` 方法可以计算协方差。

In [None]:
s1 = pd.Series(np.random.rand(10)) 
s2 = pd.Series(np.random.rand(10))

s1.cov(s2)                                  # 计算两个Series的协方差          

In [None]:
df = pd.DataFrame([[1, None], [5, 5], [4, 8], [10, 6]], columns=['a', 'b'],index=['a','b','c','d']) 
    
df.cov()                                    # 计算协方差矩阵

#### 4.4.5 相关系数 - corr

pandas.Series 和 pandas.DataFrame 的 `corr()` 方法可以计算相关系数。

In [None]:
s1 = pd.Series(np.random.rand(1000)) 
s2 = pd.Series(np.random.rand(1000))

s1.corr(s2)                                 # 计算两个Series的相关系数      

In [None]:
df = pd.DataFrame([[1, None], [5, 5], [4, 8], [10, 6]], columns=['a', 'b'],index=['a','b','c','d']) 
    
df.corr()                                    # 计算相关系数矩阵

#### 4.4.6 偏度 - skew

pandas.Series 和 pandas.DataFrame 的 `skew()` 方法可以计算偏度。

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index=['a','b','c','d','e'])   # 创建Series

s.skew()                                                      # 求偏度

In [None]:
df = pd.DataFrame([[1, None], [5, 5], [4, 8], [10, 6]], columns=['a', 'b'],index=['a','b','c','d']) 
    
df                                  

In [None]:
df.skew()              # 每列求偏度

#### 4.4.7 峰度 - kurt

pandas.Series 和 pandas.DataFrame 的 `kurt()` 方法可以计算峰度（超值峰度）。

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index=['a','b','c','d','e'])   # 创建Series

s.kurt()                                                      # 求峰度

In [None]:
s = pd.Series(np.random.randn(10000))

In [None]:
help(s.kurt)

In [None]:
s.kurt()

In [None]:
df = pd.DataFrame([[1, 2], [5, 5], [4, 8], [10, 6]], columns=['a', 'b'],index=['a','b','c','d']) 
    
df.kurt()                                    # 每列求峰度

#### 4.5 DataFrame apply() 方法

`Dataframe.apply(func, axis=0)` 沿着 DataFrame 的某行或某列实施某个函数。

func：表示某个函数；

axis：默认 `axis=0` 表示跨行（竖着向下）实施函数，`axis=1` 表示跨列（横着向右）实施函数。

In [None]:
df = pd.DataFrame(np.random.randint(1,5,(4,6)),
                  columns=list('ABCDEF'),
                  index=list('abcd'))
df

In [None]:
df.apply(lambda x:x**2)    # 将 DataFrame 中每个元素做平方

In [None]:
df.apply(sum)               # 跨行加总（对每一列求和）

In [None]:
df.apply(sum, axis=1)       # 跨列加总（对每一行求和）

#### 4.6 DataFrame 缺失值处理

#### 4.6.1 缺失值判断 - isnull

pandas.Series 和 pandas.DataFrame 的 `isnull()` 方法可以检测元素是否为空值。

In [None]:
s = pd.Series([15, 12, None, 24])       
s.isnull()                             # 检测 Series 中元素是否为空值

In [None]:
df = pd.DataFrame([[1, np.nan, 3], [4, 5, 6], [7, 8, 9]], columns=['a', 'b', 'c'],index=['x','y','z'])
                                      

df.isnull()                            # 检测 DataFrame 中元素是否为空值

#### 4.6.2 缺失值删除 - dropna

pandas.Series 和 pandas.DataFrame 的 `dropna()` 方法可以删除空值元素。

`pandas.Series.dropna(inplace=False)` 常用参数：`inplace=True` 表示对当前 Series 进行原地修改。

In [None]:
s = pd.Series([1, 2, np.nan, 4])             

s.dropna()                           # 删除缺失值

`pandas.DataFrame.dropna(axis=0, how='any', inplace=False)` 默认如果出现空值，则删除存在空值的整行。

常用参数：

`axis=1` 或 `axis='columns'` 表示如果出现空值，则删除空值存在的列（不推荐）；

`how='any'` 表示只要存在一个空值就将该条数据删除，`how='all'` 表示该条数据中所有数据都为空值才删除；

`inplace=True` 表示原地修改。

In [None]:
df

In [None]:
df = pd.DataFrame([[1, np.nan, 3], [4, 5, 6], [7, 8, 9]], columns=['a', 'b', 'c'],index=['x','y','z'])

df.dropna(how='all')                          # 删除存在空值的每行

In [None]:
df = pd.DataFrame([[1, np.nan, 3], [4, 5, 6], [7, 8, 9]], columns=['a', 'b', 'c'],index=['x','y','z'])

df.dropna(axis=1)                   # 删除存在空值的每列

#### 4.6.3 缺失值填充 - fillna

pandas.Series 和 pandas.DataFrame 的 `fillna()` 方法可以填充缺失值。

常用参数：

`value`：填充值；

`method`：填充方式；

`inplace=True` 表示原地修改。

#### 零填充

In [None]:
s = pd.Series([1, 2, np.nan, 4])           

s.fillna(0)                

In [None]:
df = pd.DataFrame([[1, np.nan, 3], [4, 5, 6], [7, 8, 9]], columns=['a', 'b', 'c'],index=['x','y','z'])
                                      
df.fillna(0)               # 用0填充

#### 均值填充

填充时将 values 参数设置为均值。

In [None]:
s = pd.Series([1, 2, np.nan, 4])           

s.fillna(s.mean())         # 用均值填充

In [None]:
df = pd.DataFrame([[1, np.nan, 3], [4, 5, 6], [7, 8, 9]], columns=['a', 'b', 'c'],index=['x','y','z'])
                                      
df.fillna(df.mean())      # 用均值填充

#### 向前填充

`fillna` 参数 `method='ffill'` 表示向前填充（空值填充为前面的值）。

In [None]:
s = pd.Series([1, 2, np.nan, 4])            

s.fillna(method='ffill')               # 用前一个值填充

In [None]:
df = pd.DataFrame([[1, np.nan, 3], [4, 5, 6], [7, 8, 9]], columns=['a', 'b', 'c'],index=['x','y','z'])

df.fillna(method='ffill')              # 用前一个值填充

#### 向后填充

`fillna` 参数 `method='bfill'` 表示向后填充（空值填充为后面的值）。

In [None]:
s = pd.Series([1, 2, np.nan, 4])          

s.fillna(method='bfill')                      

In [None]:
df = pd.DataFrame([[1, np.nan, 3], [4, 5, 6], [7, 8, 9]], columns=['a', 'b', 'c'],index=['x','y','z'])
                                      
df.fillna(method='bfill')          

声明：本资料仅限内部研究使用，切勿外传。