## Pandas数据结构

导入Pandas

In [1]:
import numpy as np
import pandas as pd

### Series

Series是一种类似于一维数组的对象，由下面两个部分组成：
- values：一组数据（ndarray类型）
- index：相关的数据索引标签

#### 1）Series的创建

两种创建方式：

(1) 由列表或NumPy数组创建

- 默认索引为0到N-1的整数型索引

In [3]:
list1 = [11, 22, 33, 44]
s = pd.Series(list1)
s

n = np.array(list1)
s = pd.Series(n)
s

0    11
1    22
2    33
3    44
dtype: int32

In [4]:
type(s)

pandas.core.series.Series

- index和values

In [5]:
# 值
s.values
# ndarray的一维数组

array([11, 22, 33, 44])

In [7]:
# 索引
s.index
list(s.index)

[0, 1, 2, 3]

In [10]:
# 修改索引index
s.index = ['A', 'B', 'C', 'D']
s.index = list('BCDE') 
s

B    11
C    22
D    33
E    44
dtype: int32

In [15]:
# 通过index获取值, 数字索引要用[]
s.B, s.C, s['D']

(11, 22, 33)

In [16]:
# 通过index修改值
s['E'] = 100
s

B     11
C     22
D     33
E    100
dtype: int32

(2) 由字典创建

In [18]:
d = {
    'a': 11, 
    'b': 22,
    'c': 33,
    'd': 44
}
s = pd.Series(d)
s

s.index = list('ABCD')
s

A    11
B    22
C    33
D    44
dtype: int64

In [19]:
d = {
    'a': np.random.randint(0, 10, size=(2, 3)),
    'b': np.random.randint(0, 10, size=(2, 3)),
    'c': np.random.randint(0, 10, size=(2, 3)),
    'd': np.random.randint(0, 10, size=(2, 3)),
}
s = pd.Series(d)
s

a    [[4, 2, 8], [0, 7, 5]]
b    [[4, 8, 4], [9, 2, 9]]
c    [[2, 1, 4], [5, 1, 1]]
d    [[3, 5, 7], [3, 8, 6]]
dtype: object

In [20]:
s['a']

array([[4, 2, 8],
       [0, 7, 5]])

In [22]:
pd.Series([1, 2, 3], index=['鲁班', '李白', '杜甫'], name='历史人物')

鲁班    1
李白    2
杜甫    3
Name: 历史人物, dtype: int64

#### 2）Series的索引和切片

#### Series的索引

可以使用中括号取单个索引（此时返回的是元素类型），或者中括号里一个列表取多个索引（此时返回的仍然是一个Series类型）。分为显示索引和隐式索引：

(1) 显式索引：
- 使用index中的元素作为索引值
- 使用.loc[]（推荐）

In [29]:
s = pd.Series({'Python': 150, 'NumPy': 100, 'Pandas': 130})
s

Python    150
NumPy     100
Pandas    130
dtype: int64

In [37]:
# 显示索引： 使用索引名
s['Python']   # 值，int类型
s.NumPy

# 使用2个中括号得到的类型：Series
 # 一次取多个元素
s[['Pandas', 'NumPy']] 
s[['Pandas']]

# 使用 loc[]
s.loc['Python']
s.loc[['Pandas', 'NumPy']] 
s.loc[['Pandas']]

Pandas    130
dtype: int64

(2) 隐式索引：
- 使用整数作为索引值
- 使用.iloc[]（推荐）

In [38]:
s

Python    150
NumPy     100
Pandas    130
dtype: int64

In [47]:
# 隐式索引：使用数字下标
s[0]
s[[0, 2]]
s[[0]]

# 使用 iloc[]
s.iloc[0]
s.iloc[[0, 2]]
s.iloc[[0]]

# 下面这2个写法是错误的
# s.iloc['Python']
# s.loc[0]

Python    150
dtype: int64

#### Series的切片

In [48]:
s = pd.Series({
    '语文': 100, 
    '数学': 150,
    '英语': 110,
    'Python': 130,
    'Pandas': 150,
    'NumPy': 150
})
s

语文        100
数学        150
英语        110
Python    130
Pandas    150
NumPy     150
dtype: int64

In [55]:
# 切片
# Series是一维数组

# 隐式切片:  左闭右开
s[1 : 4]
s.iloc[1 : 4]

# 显式切片: 左闭右闭
s['数学' : 'Python']
s.loc['数学' : 'Python']

数学        150
英语        110
Python    130
dtype: int64

#### 3）Series的基本属性和方法

- shape  形状
- size  长度
- index  索引
- values  值
- name  名字

In [56]:
s

语文        100
数学        150
英语        110
Python    130
Pandas    150
NumPy     150
dtype: int64

In [62]:
s.shape  # 形状
s.size  # 元素个数
s.index  # 索引
s.values  # 值

# s.name  # 索引名字

array([100, 150, 110, 130, 150, 150], dtype=int64)

- head()  查看前几条数据，默认5条
- tail()  查看后几条数据，默认5

In [63]:
s

语文        100
数学        150
英语        110
Python    130
Pandas    150
NumPy     150
dtype: int64

In [65]:
s.head()  # 查看前几条数据，默认5条
s.head(2)

语文    100
数学    150
dtype: int64

In [67]:
s.tail()  # 查看后几条数据，默认5
s.tail(2)

Pandas    150
NumPy     150
dtype: int64

检测缺失数据
- pd.isnull()
- pd.notnull()
- isnull()
- notnull()

In [68]:
s = pd.Series(['张三', '李四', '王五', np.nan])
s
# NaN : 空

0     张三
1     李四
2     王五
3    NaN
dtype: object

In [73]:
# isnull : 判断是否为空
s.isnull()
# pd.isnull(s)

# notnull : 判断是否不为空
s.notnull()
pd.notnull(s)

0     True
1     True
2     True
3    False
dtype: bool

使用bool值索引过滤数据

In [75]:
s

0     张三
1     李四
2     王五
3    NaN
dtype: object

In [82]:
# 过滤掉空值

cond1 = s.isnull()
cond1
# s[[0, 1, 2]]
# s[[True, False, False, True]]

# 取反
~cond1
s[ ~cond1 ]

0    张三
1    李四
2    王五
dtype: object

In [85]:
# 过滤掉空值
cond2 = s.notnull()
cond2
s[cond2]

0    张三
1    李四
2    王五
dtype: object

#### 4）Series的运算

(1) 适用于NumPy的数组运算也适用于Series

In [86]:
s = pd.Series(np.random.randint(10, 100, size=10))
s

0    12
1    29
2    38
3    85
4    32
5    76
6    68
7    62
8    90
9    51
dtype: int32

In [94]:
# 基本算术运算
s + 100
s - 100
s * 100
s / 100
s // 2
s ** 2
s % 2

0    0
1    1
2    0
3    1
4    0
5    0
6    0
7    0
8    0
9    1
dtype: int32

(2) Series之间的运算

- 在运算中自动对齐索引
- 如果索引不对应，则补NaN
- Series没有广播机制

In [95]:
s1 = pd.Series(np.random.randint(10, 100, size=3))
s2 = pd.Series(np.random.randint(10, 100, size=3))
display(s1, s2)

0    56
1    66
2    73
dtype: int32

0    20
1    44
2    83
dtype: int32

In [97]:
s1 + s2
s1 - s2

0    36
1    22
2   -10
dtype: int32

In [98]:
s3 = pd.Series(np.random.randint(10, 100, size=3))
s4 = pd.Series(np.random.randint(10, 100, size=4))
display(s3, s4)

0    47
1    13
2    56
dtype: int32

0    15
1    50
2    48
3    30
dtype: int32

In [99]:
s3 + s4

0     62.0
1     63.0
2    104.0
3      NaN
dtype: float64

In [103]:
s4.index = [3, 1, 2, 0]

In [104]:
display(s3, s4)

0    47
1    13
2    56
dtype: int32

3    15
1    50
2    48
0    30
dtype: int32

In [105]:
# 对应索引的值进行运算
s3 + s4

0     77.0
1     63.0
2    104.0
3      NaN
dtype: float64

- 注意：要想保留所有的index，则需要使用.add()函数

In [107]:
display(s3, s4)

0    47
1    13
2    56
dtype: int32

3    15
1    50
2    48
0    30
dtype: int32

In [106]:
s3.add(s4, fill_value=0)

0     77.0
1     63.0
2    104.0
3     15.0
dtype: float64

#### 总结
- Series: 可以看做是一个有序的字典结构

### DataFrame

DataFrame是一个【表格型】的数据结构，可以看做是【由Series组成的字典】（共用同一个索引）。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。
- 行索引：index
- 列索引：columns
- 值：values（NumPy的二维数组）

#### 1）DataFrame的创建
最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称，以字典的值（一个数组）作为每一列。

此外，DataFrame会自动加上每一行的索引（和Series一样）。

同Series一样，若传入的列与字典的键不匹配，则相应的值为NaN。


In [110]:
d = {
    'name': ['千锋', 'Python', 'Pandas'],
    'age': [11, 30, 20],
}
df = pd.DataFrame(d)
df

Unnamed: 0,name,age
0,千锋,11
1,Python,30
2,Pandas,20


DataFrame的基本属性和方法：
- values   值，二维ndarray数组
- columns  列索引
- index  行索引
- shape  形状
- head() 查看前几条数据，默认5条
- tail() 查看后几条数据，默认5

In [116]:
display(df)

df.values  # 二维数组的数据
df.columns  # 列索引
df.index  # 行索引
df.shape  # 形状

Unnamed: 0,name,age
0,千锋,11
1,Python,30
2,Pandas,20


(3, 2)

In [118]:
df.head(2)

Unnamed: 0,name,age
0,千锋,11
1,Python,30


In [120]:
df.tail(2)

Unnamed: 0,name,age
1,Python,30
2,Pandas,20


In [122]:
# 设置index
df.index = list('ABC')
df

# 设置列索引
df.columns = ['name2', 'age2']
df

Unnamed: 0,name2,age2
A,千锋,11
B,Python,30
C,Pandas,20


In [123]:
d = {
    'name': ['千锋', 'Python', 'Pandas'],
    'age': [11, 30, 20],
}
df = pd.DataFrame(d, index=list('ABC'))
df

Unnamed: 0,name,age
A,千锋,11
B,Python,30
C,Pandas,20


 其他创建DataFrame的方式

In [125]:
df = pd.DataFrame(
    data=np.random.randint(10, 100, size=(4, 6))
)
df

df = pd.DataFrame(
    data=np.random.randint(10, 100, size=(4, 6)),
    index=['小明', '小红', '小黄', '小绿'],
    columns=['语文', '数学', '英语', '化学', '物理', '生物']
)
df

Unnamed: 0,语文,数学,英语,化学,物理,生物
小明,54,85,38,14,94,97
小红,61,57,95,89,81,73
小黄,97,84,93,41,21,39
小绿,89,92,43,70,31,53


#### 2）DataFrame的索引

(1) 对列进行索引
- 通过类似字典的方式
- 通过属性的方式

可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引，且name属性也已经设置好了，就是相应的列名。

In [127]:
df

Unnamed: 0,语文,数学,英语,化学,物理,生物
小明,54,85,38,14,94,97
小红,61,57,95,89,81,73
小黄,97,84,93,41,21,39
小绿,89,92,43,70,31,53


In [131]:
df.语文  # Series类型
df['语文']

# 使用2个中括号得到的类型：DataFrame
df[['语文', "化学"]]
df[['语文']]

Unnamed: 0,语文
小明,54
小红,61
小黄,97
小绿,89


(2) 对行进行索引
- 使用.loc[]加index来进行行索引
- 使用.iloc[]加整数来进行行索引
    
同样返回一个Series，index为原来的columns。

In [132]:
df

Unnamed: 0,语文,数学,英语,化学,物理,生物
小明,54,85,38,14,94,97
小红,61,57,95,89,81,73
小黄,97,84,93,41,21,39
小绿,89,92,43,70,31,53


In [142]:
# 不可以直接取行索引
# df['小明']
# df.小明

# DataFrame默认是先取列索引
# 取行索引
df.loc['小明']  # Series类型
df.iloc[0] 

# 使用两个中括号: DataFrame类型
df.loc[['小明', '小绿']]
df.loc[['小明']]

df.iloc[[0, -1]]
df.iloc[[0, 3]]
df.iloc[[0]]

Unnamed: 0,语文,数学,英语,化学,物理,生物
小明,54,85,38,14,94,97


(3) 对元素索引的方法
- 使用列索引
- 使用行索引(iloc[3,1]相当于两个参数;iloc[[3,3]] 里面的[3,3]看做一个参数)
- 使用values属性（二维NumPy数组）

In [143]:
df

Unnamed: 0,语文,数学,英语,化学,物理,生物
小明,54,85,38,14,94,97
小红,61,57,95,89,81,73
小黄,97,84,93,41,21,39
小绿,89,92,43,70,31,53


In [162]:
# 先取列，再取行
df['语文']['小明']
df['语文'][0]
df.语文[0]
df.语文.小明

# 先取行，再取列
df.loc['小明']['语文']
df.loc['小明'][0]
df.iloc[0][0]
df.iloc[0]['语文']

df.iloc[0, 0]
df.loc['小明', '语文']

54

#### 3）DataFrame的切片

【注意】
直接用中括号时：
- 索引优先对列进行操作
- 切片优先对行进行操作

In [163]:
df

Unnamed: 0,语文,数学,英语,化学,物理,生物
小明,54,85,38,14,94,97
小红,61,57,95,89,81,73
小黄,97,84,93,41,21,39
小绿,89,92,43,70,31,53


In [168]:
# 行切片
df[1: 3]   # 左闭右开 
df['小红' : '小黄']  # 左闭右闭

df.iloc[1: 3]   # 左闭右开 
df.loc['小红' : '小黄']  # 左闭右闭

Unnamed: 0,语文,数学,英语,化学,物理,生物
小红,61,57,95,89,81,73
小黄,97,84,93,41,21,39


In [171]:
# 列切片
#   对列做切片，也必须先对行切片
df.iloc[ : , 1: 4]
df.loc[:, "数学": "化学"]

Unnamed: 0,数学,英语,化学
小明,85,38,14
小红,57,95,89
小黄,84,93,41
小绿,92,43,70


#### 总结：
- 要么取一行或一列   ： 索引
- 要么取连续的多行或多列  ： 切片
- 要么取不连续的多行或多列 ： 中括号

In [172]:
# 练习：
#   同时对行和列做切片
df

Unnamed: 0,语文,数学,英语,化学,物理,生物
小明,54,85,38,14,94,97
小红,61,57,95,89,81,73
小黄,97,84,93,41,21,39
小绿,89,92,43,70,31,53


In [174]:
# 取小红和小黄的数学，英语，化学成绩
df.iloc[1 : 3, 1: 4]
df.loc['小红': '小黄', '数学': '化学']

Unnamed: 0,数学,英语,化学
小红,57,95,89
小黄,84,93,41


In [183]:
# 取小红的数学，英语，化学成绩
df.loc['小红', '数学': '化学']
df.loc[['小红'], '数学': '化学']

df.iloc[1, 1: 4]
df.iloc[[1], 1: 4]

Unnamed: 0,数学,英语,化学
小红,57,95,89


In [184]:
# 取小红和小绿的数学，英语，化学成绩
df.loc[['小红', '小绿'], '数学': '化学']

df.iloc[[1, -1], 1: 4]

Unnamed: 0,数学,英语,化学
小红,57,95,89
小绿,92,43,70


#### 4）DataFrame的运算

（1） DataFrame之间的运算
- 在运算中自动对齐不同索引的数据
- 如果索引不对应，则补NaN
- DataFrame没有广播机制

创建DataFrame df1 不同人员的各科目成绩，月考一

In [187]:
df1 = pd.DataFrame(
    data=np.random.randint(10, 100, size=(3, 3)),
    index=['小明', '小红', '小黄'],
    columns=['语文', '数学', '英语']
)
df1

Unnamed: 0,语文,数学,英语
小明,29,96,22
小红,75,73,87
小黄,88,20,99


创建DataFrame df2 不同人员的各科目成绩，月考二  

In [188]:
df2 = pd.DataFrame(
    data=np.random.randint(10, 100, size=(3, 3)),
    index=['小明', '小红', '小黄'],
    columns=['语文', '数学', '英语']
)
df2

Unnamed: 0,语文,数学,英语
小明,92,73,46
小红,31,95,59
小黄,73,65,72


In [190]:
display(df1, df2)

Unnamed: 0,语文,数学,英语
小明,29,96,22
小红,75,73,87
小黄,88,20,99


Unnamed: 0,语文,数学,英语
小明,92,73,46
小红,31,95,59
小黄,73,65,72


DataFrame和标量之间的运算

In [196]:
df1 + 100
df1 - 100
df1 * 100
df1 / 100
df1 % 10
df1 ** 2

Unnamed: 0,语文,数学,英语
小明,841,9216,484
小红,5625,5329,7569
小黄,7744,400,9801


DataFrame之间的运算

In [197]:
display(df1, df2)

Unnamed: 0,语文,数学,英语
小明,29,96,22
小红,75,73,87
小黄,88,20,99


Unnamed: 0,语文,数学,英语
小明,92,73,46
小红,31,95,59
小黄,73,65,72


In [198]:
# 
df1 + df2

Unnamed: 0,语文,数学,英语
小明,121,169,68
小红,106,168,146
小黄,161,85,171


使用.add()函数，填充数据

In [200]:
df3 = pd.DataFrame(
    data=np.random.randint(10, 100, size=(4, 4)),
    index=['小明', '小红', '小黄', '小绿'],
    columns=['语文', '数学', '英语', '物理']
)
display(df1, df3)

Unnamed: 0,语文,数学,英语
小明,29,96,22
小红,75,73,87
小黄,88,20,99


Unnamed: 0,语文,数学,英语,物理
小明,11,14,45,72
小红,99,17,12,32
小黄,19,41,22,78
小绿,57,31,42,22


In [201]:
df1 + df3

Unnamed: 0,数学,物理,英语,语文
小明,110.0,,67.0,40.0
小红,90.0,,99.0,174.0
小绿,,,,
小黄,61.0,,121.0,107.0


In [204]:
# 先填充0，再相加
df1.add(df3, fill_value=0)

# 除法
df1.divide(df3, fill_value=2)

Unnamed: 0,数学,物理,英语,语文
小明,6.857143,0.027778,0.488889,2.636364
小红,4.294118,0.0625,7.25,0.757576
小绿,0.064516,0.090909,0.047619,0.035088
小黄,0.487805,0.025641,4.5,4.631579


（2） Series与DataFrame之间的运算

- 使用Python操作符：以行为单位操作（参数必须是行），对所有行都有效。
    - 类似于NumPy中二维数组与一维数组的运算，但可能出现NaN

- 使用Pandas操作函数：
    - axis=0：以列为单位操作（参数必须是列），对所有列都有效。
    - axis=1：以行为单位操作（参数必须是行），对所有行都有效。

In [205]:
df1

Unnamed: 0,语文,数学,英语
小明,29,96,22
小红,75,73,87
小黄,88,20,99


In [206]:
s = pd.Series([100, 10, 1], index=df1.columns)
s

语文    100
数学     10
英语      1
dtype: int64

In [212]:
df1 + s

df1.add(s)
# axis : {0 or 'index', 1 or 'columns'}
df1.add(s, axis='columns')  # 列
df1.add(s, axis=1)  # 列

Unnamed: 0,语文,数学,英语
小明,129,106,23
小红,175,83,88
小黄,188,30,100


In [213]:
s = pd.Series([100, 10, 1], index=df1.index)
s

小明    100
小红     10
小黄      1
dtype: int64

In [216]:
df1.add(s, axis=0)  # 行
df1.add(s, axis='index')  # 行

Unnamed: 0,语文,数学,英语
小明,129,196,122
小红,85,83,97
小黄,89,21,100
