In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

▲预先执行的代码

In [2]:
val = ['a',1,0.5]
df = pd.DataFrame(val)
df

Unnamed: 0,0
0,a
1,1
2,0.5


▲程序清单 2.41 使用列表创建 DataFrame 对象

In [3]:
val = [[1,2,3],[4,5,6]]
df = pd.DataFrame(val, index=['a','b'], columns=['c','d','e'])
df

Unnamed: 0,c,d,e
a,1,2,3
b,4,5,6


▲ 程序清单 2.42 使用二维数组创建 DataFrame 对象

In [4]:
val = [[1,2,3],[4,5]]
df = pd.DataFrame(val)
df

Unnamed: 0,0,1,2
0,1,2,3.0
1,4,5,


▲ 程序清单 2.43 大小不同时会自动代入 NaN

In [5]:
dictionary = {'a':[1,2,3], 'b':[4,5,6]}
df = pd.DataFrame(dictionary)
df

Unnamed: 0,a,b
0,1,4
1,2,5
2,3,6


▲ 程序清单 2.44 使用字典创建 DataFrame 对象

In [6]:
age = pd.Series([10,12,9], index=['A','B','C'])
sex = pd.Series(['M','F','F'], index=['C','A','D'])
df = pd.DataFrame({'age':age, 'sex':sex})
df

Unnamed: 0,age,sex
A,10.0,F
B,12.0,
C,9.0,M
D,,F


▲ 程序清单 2.45 将字典中的 value 作为 Series 创建 DataFrame 对象

In [7]:
nest_dict = {
    'age':{'A':10,'B':12,'C':9},
    'sex':{'C':'M','A':'F','D':'F'}
}

df = pd.DataFrame(nest_dict)
df

Unnamed: 0,age,sex
A,10.0,F
B,12.0,
C,9.0,M
D,,F


▲ 程序清单 2.46 使用嵌套字典创建 DataFrame 对象

In [8]:
val = [[1,2],[4,5]]
df1 = pd.DataFrame(val, columns=['A','B'], dtype=None)
print(df1.dtypes)

A    int64
B    int64
dtype: object


In [9]:
df2 = pd.DataFrame(val, columns=['A','B'], dtype=np.float64)
print(df2.dtypes)

A    float64
B    float64
dtype: object


▲程序清单 2.47 DataFrame 构造函数与 dtype 参数

In [10]:
df = pd.DataFrame({
    'math':[82,93,77],
    'eng':[77,87,71],
    'chem':[69,91,89]
})

df

Unnamed: 0,math,eng,chem
0,82,77,69
1,93,87,91
2,77,71,89


▲ 程序清单 2.48 DataFrame 对象的创建

In [11]:
df['math']

0    82
1    93
2    77
Name: math, dtype: int64

In [12]:
print(type(df['math']))

<class 'pandas.core.series.Series'>


▲ 程序清单 2.49 使用方括号（[ ]）进行索引引用

In [13]:
df[['math','eng']]

Unnamed: 0,math,eng
0,82,77
1,93,87
2,77,71


In [14]:
print(type(df[['math','eng']]))

<class 'pandas.core.frame.DataFrame'>


▲  程序清单 2.50 指定多个列进行索引引用

In [15]:
df[df['math'] > 80]

Unnamed: 0,math,eng,chem
0,82,77,69
1,93,87,91


▲ 程序清单 2.51 引用 bool 类型的值

In [16]:
val = [[1,2,3],[4,5,6]]
df = pd.DataFrame(val)
print(df.index)
df

RangeIndex(start=0, stop=2, step=1)


Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


▲ 程序清单 2.52 DataFrame 对象的 index 属性

In [17]:
df.index = ['a','b']
print(df.index)
df

Index(['a', 'b'], dtype='object')


Unnamed: 0,0,1,2
a,1,2,3
b,4,5,6


▲ 程序清单 2.53 使用 index 属性变更索引标签

In [18]:
df.columns

RangeIndex(start=0, stop=3, step=1)

▲ 程序清单 2.54 DataFrame 对象的 columns 属性

In [19]:
df.columns = ['c','d','e']
df.columns

Index(['c', 'd', 'e'], dtype='object')

▲ 程序清单 2.55 使用 columns 属性变更列标签

In [20]:
df.loc['a', :]

c    1
d    2
e    3
Name: a, dtype: int64

▲ 程序清单 2.56 DataFrame 对象的 loc 属性

In [21]:
df.loc['b', 'e']

6

▲ 程序清单 2.57 使用 loc 属性进行索引引用

In [22]:
df.iloc[0, :]

c    1
d    2
e    3
Name: a, dtype: int64

In [23]:
df.iloc[1, 2]

6

▲ 程序清单 2.57 使用 loc 属性进行索引引用

In [24]:
df.shape

(2, 3)

▲程序清单 2.59 DataFrame 对象的 shape 属性

In [25]:
df.size

6

▲ 程序清单 2.60 DataFrame 对象的 size 属性

In [26]:
df = pd.DataFrame([[1.0,np.nan],[2.0,np.nan],[np.nan,3.0]])
print(df.shape)
print(df.size)

(3, 2)
6


▲ 程序清单 2.61 size 属性与缺失值 NaN

In [27]:
df = pd.DataFrame([[1,2,3],[4,5,6]])
df.iloc[1,1] = 100
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,100,6


▲ 程序清单 2.62 变更 DataFrame 对象的值

In [28]:
df['new1'] = 10
df['new2'] = [5,6]
df

Unnamed: 0,0,1,2,new1,new2
0,1,2,3,10,5
1,4,100,6,10,6


▲ 程序清单 2.63 向 DataFrame 对象中添加列

In [29]:
val = [7,8,9,10,11]
idx = [0,1,2,'new1','new2']
series_add = pd.Series(val, index=idx, name='new3')
df = df.append(series_add)
df

Unnamed: 0,0,1,2,new1,new2
0,1,2,3,10,5
1,4,100,6,10,6
new3,7,8,9,10,11


▲ 程序清单 2.64 向 DataFrame 对象中添加行

In [30]:
df.drop(labels='new3', axis=0, inplace=True)
df

Unnamed: 0,0,1,2,new1,new2
0,1,2,3,10,5
1,4,100,6,10,6


▲ 程序清单 2.66 使用 drop 方法删除多个列

In [31]:
df.drop(labels=['new1','new2'], axis=1, inplace=True)
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,100,6


▲ 程序清单 2.66 使用 drop 方法删除多个列

In [32]:
val = [[1,2,3],[4,5,6],[1,2,3],[3,5,6],[1,2,3]]
df = pd.DataFrame(val, columns=list('ABC'))
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,1,2,3
3,3,5,6
4,1,2,3


▲ 程序清单 2.67 DataFrame 对象的创建

In [33]:
df.duplicated(keep='first')

0    False
1    False
2     True
3    False
4     True
dtype: bool

▲ 程序清单 2.68 使用 duplicated 方法对重复数据进行提取

In [34]:
df[df.duplicated(keep='first')]

Unnamed: 0,A,B,C
2,1,2,3
4,1,2,3


▲ 程序清单 2.69 使用 duplicated 方法提取重复数据

In [35]:
df.drop_duplicates(keep='first', inplace=True)
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
3,3,5,6


▲ 程序清单 2.70 使用 drop_duplicates 方法删除重复数据

In [36]:
val = [[1,2,3],[4,5,np.nan],[1,np.nan,np.nan],[3,5,6],[7,8,9]]
df = pd.DataFrame(val, columns=list('ABC'))
df.isna()

Unnamed: 0,A,B,C
0,False,False,False
1,False,False,True
2,False,True,True
3,False,False,False
4,False,False,False


▲ 程序清单 2.71 DataFrame 类的 isna 方法

In [37]:
df.notna()

Unnamed: 0,A,B,C
0,True,True,True
1,True,True,False
2,True,False,False
3,True,True,True
4,True,True,True


▲ 程序清单 2.72 DataFrame 类的 notna 方法

In [38]:
df.dropna(axis=1)

Unnamed: 0,A
0,1
1,4
2,1
3,3
4,7


In [39]:
df.dropna(axis=0)

Unnamed: 0,A,B,C
0,1,2.0,3.0
3,3,5.0,6.0
4,7,8.0,9.0


▲ 程序清单 2.73 DataFrame 类的 dropna 方法