# Pandas 核心数据类型

## 什么是Pandas

[Pandas官方文档](https://pandas.pydata.org/docs/user_guide/dsintro.html) 

- Pandas 是 Python 语言的一个扩展程序库，用于数据分析。

- Pandas 是一个开放源码、BSD 许可的库，提供高性能、易于使用的数据结构和数据分析工具。

- Pandas 名字衍生自术语 "panel data"（面板数据）和 "Python data analysis"（Python 数据分析）。

- Pandas 一个强大的分析结构化数据的工具集，基础是 Numpy（提供高性能的矩阵运算）。

- Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。

- Pandas 可以对各种数据进行运算操作，比如归并、再成形、选择，还有数据清洗和数据加工特征。



Pandas 的主要数据结构是 Series （一维数据）与 DataFrame（二维数据），这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例

## Series

Series是一种类似于字典(dict-like)的一维数组(array-like)的对象，由下面两个部分组成：

- values：一组数据（ndarray类型）
- index：相关的数据索引标签

In [None]:
array-like

In [None]:
[['lucy',19, '北京'],
['tom',20,'上海']]

In [None]:
[p1, p2, p3....]

In [4]:
user_info = ['aaa',20,'A']

In [5]:
user_info[0]

'aaa'

In [1]:
# 可读性更高
# 字典的元素是无序的，所以不支持索引访问
user_info = {
    'name':'aaa',
    'age':20,
    'address':'A'
}

In [3]:
user_info['name']

'aaa'

In [15]:
import numpy as np
import pandas as pd

from pandas import Series, DataFrame

### 构造Series

1) From ndarray 使用ndarray构造 是一个引用对象

In [7]:
arr1 = np.random.randint(0, 10, size=5)
arr1

array([4, 0, 3, 5, 1])

In [15]:
arr1[0] = 100

In [9]:
s1 = pd.Series(data=arr1)

In [10]:
s1

0    4
1    0
2    3
3    5
4    1
dtype: int32

In [16]:
# 注意，此处时修改了arr1[0]=100之后的输出
s1

0    100
1      0
2      3
3      5
4      1
dtype: int32

In [12]:
# index用来指定Series对象的显示索引，如果没有显示设置索引，则默认使用隐式（数组索引）索引填充
s2 = pd.Series(data=arr1, index=['A','B','C','D','E'])
s2

A    4
B    0
C    3
D    5
E    1
dtype: int32

2) From List 使用列表构造 是一个副本对象

In [13]:
list('ABCD')

['A', 'B', 'C', 'D']

In [14]:
l1 = [1,2,3,4]
s3 = pd.Series(data=l1, index=list('ABCD'))
s3

A    1
B    2
C    3
D    4
dtype: int64

In [17]:
l1[0] = 100

In [19]:
l1

[100, 2, 3, 4]

In [18]:
s3

A    1
B    2
C    3
D    4
dtype: int64

3) From dict 使用字典构造

In [22]:
user_info = {
    'name':'aaa',
    'age':20,
    'address':'A'
}

user_info

{'address': 'A', 'age': 20, 'name': 'aaa'}

In [39]:
# 字典构造的Sereis,默认使用字典的key作为Series的显示索引，valeus作为Series的值
s4 = pd.Series(data=user_info)

In [24]:
# NaN  not a number  空数值
pd.Series(data=user_info, index=['A','B','C'])

A    NaN
B    NaN
C    NaN
dtype: object

In [26]:
pd.Series(data=user_info, index=['name','address','A'])

name       aaa
address      A
A          NaN
dtype: object

4) From scalar value

- 使用一个标量（常量或变量）构造时，必须指定index，标量会被重复匹配到每一个index

In [27]:
index = list('ABCDE')
index

['A', 'B', 'C', 'D', 'E']

In [28]:
data = [6,6,6,6,6]
pd.Series(data=data, index=index)

A    6
B    6
C    6
D    6
E    6
dtype: int64

In [29]:
pd.Series(data=6, index=index)

A    6
B    6
C    6
D    6
E    6
dtype: int64

### Series属性

- name  返回Series对象的名字 
- shape 返回Series对象的形状
- size  返回Series对象的元素个数
- index 返回Series对象的显示索引
- values 返回Sereis对象的所有元素值

In [41]:
s4['name']

'aaa'

In [44]:
s4

name       aaa
age         20
address      A
dtype: object

In [43]:
print(s4.name)

None


In [52]:
s = pd.Series(data=[1,2,3], index=list('ABC'))

In [55]:
s

A    1
B    2
C    3
dtype: int64

In [53]:
s.shape

(3,)

In [54]:
s.index

Index(['A', 'B', 'C'], dtype='object')

In [56]:
s.values

array([1, 2, 3], dtype=int64)

In [57]:
# size是元素个数
s.size

3

### Sereis的数学运算

Series对大多数NumPy的函数都是兼容的

In [58]:
s

A    1
B    2
C    3
dtype: int64

1) 与非pandas对象运算

服从广播机制原则

In [59]:
s + 1

A    2
B    3
C    4
dtype: int64

In [60]:
# 
arr1 = np.array([1,2,3,4])

In [61]:
arr1 + s

ValueError: operands could not be broadcast together with shapes (4,) (3,) 

2) NumPy functions

In [63]:
np.power(np.array([1,2,3]), 2)

array([1, 4, 9], dtype=int32)

In [65]:
np.power(s,2)

A    1
B    4
C    9
dtype: int64

3) Series之间运算
- 索引对齐原则
- 对不齐补空值， 使用add\sub\mul\div函数处理空值

In [66]:
s

A    1
B    2
C    3
dtype: int64

In [69]:
s1 = pd.Series(data=np.array([2,3,4]), index=['C','A','B'])
s1

C    2
A    3
B    4
dtype: int32

In [70]:
s + s1

A    4
B    6
C    5
dtype: int64

In [72]:
s1

C    2
A    3
B    4
dtype: int32

In [71]:
s2 = pd.Series(data=[2,3,4], index=['A','C','D'])

In [74]:
s2

A    2
C    3
D    4
dtype: int64

In [73]:
s1 + s2

A    5.0
B    NaN
C    5.0
D    NaN
dtype: float64

## DataFrame

DataFrame是一个二维的表格型数据结构，可以看做是由Series组成的字典（共用同一个索引）。     
DataFrame由按一定顺序排列的【多列】数据组成，每一列的数据类型可能不同。             
设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。

- 行索引：index
- 列索引：columns
- 值：values（numpy的二维数组）

In [2]:
import numpy as np
import pandas as pd

from pandas import Series, DataFrame

In [4]:
list1 = [1, 2, 'name']

s1 = pd.Series(data=list1)

In [3]:
# Series和ndarray一样，会强制类型统一
s1

0       1
1       2
2    name
dtype: object

In [4]:
s1.dtype

dtype('O')

In [7]:
np.dtype?

### 构造DataFrame

In [14]:
# data=None 用于构造DataFrame的数据
# index=None, columns=None,  行列索引
# dtype=None, 数据类型
# copy=False 

data = np.random.randint(0, 100, size=(3,4))
index = ['tom','lucy','alex']
columns = ['语文','数学','物理','化学']

pd.DataFrame(data=data, index=index, columns=columns)

Unnamed: 0,语文,数学,物理,化学
tom,45,38,78,3
lucy,41,6,99,27
alex,50,72,11,84


1) From dict of Series or dicts 使用一个由Series构造的字典或一个字典构造

In [20]:
names = pd.Series(data=['lucy','mery','tom'], index=list('ABC'))
scores = pd.Series(data=np.random.randint(0, 100, size=3), index=list('ABC'))

pd.DataFrame(data={
    'names':names,
    'scores':scores
})

Unnamed: 0,names,scores
A,lucy,82
B,mery,66
C,tom,86


2) From dict of ndarrays / lists 使用一个由列表或ndarray构造的字典构造

ndarrays必须长度保持一致

In [24]:
dic = {
    'name':'lucy',
    'score':90
}
pd.DataFrame(data=dic, index=[0])

Unnamed: 0,name,score
0,lucy,90


3) From a list of dicts 使用一个由字典构成的列表构造

In [26]:
dic1 = {
    'name':'lucy',
    'score':90
}

dic2 = {
    'name':'mery',
    'score':87
}
l1 = [dic1, dic2]

pd.DataFrame(data=l1)

Unnamed: 0,name,score
0,lucy,90
1,mery,87


4) DataFrame.from_dict() 函数构造

In [34]:
names = ['lucy','mery','tom','alex','智哥']
yuwen = np.random.randint(0, 100, size=5)
shuxue = np.random.randint(0, 100, size=5) 

display(names, yuwen, shuxue)

dictionary = {
    'names':names,
    '语文':yuwen,
    '数学':shuxue
}

score = pd.DataFrame(data=dictionary)

['lucy', 'mery', 'tom', 'alex', '智哥']

array([83, 95, 50, 76, 86])

array([98,  7, 37, 74, 96])

### DataFrame属性

- dtypes
- values
- index
- columns

In [36]:
score

Unnamed: 0,names,语文,数学
0,lucy,83,98
1,mery,95,7
2,tom,50,37
3,alex,76,74
4,智哥,86,96


In [35]:
score.dtypes

names    object
语文        int32
数学        int32
dtype: object

In [37]:
# ndarray VS DataFrame

# score.values

array([['lucy', 83, 98],
       ['mery', 95, 7],
       ['tom', 50, 37],
       ['alex', 76, 74],
       ['智哥', 86, 96]], dtype=object)

In [42]:
score.index

RangeIndex(start=0, stop=5, step=1)

In [43]:
score.columns

Index(['names', '语文', '数学'], dtype='object')

### DataFrame运算

1) 与非pandas对象运算

In [16]:
df = pd.DataFrame(data=np.random.randint(0, 10, size=(3,4)), columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,5,5,4,2
1,8,0,4,6
2,9,7,8,2


In [4]:
df + 10

Unnamed: 0,A,B,C,D
0,10,17,13,17
1,19,11,16,13
2,10,16,19,18


In [17]:
arr1 = np.array([1,2,3,4])
arr1

array([1, 2, 3, 4])

In [6]:
df + arr1

Unnamed: 0,A,B,C,D
0,1,9,6,11
1,10,3,9,7
2,1,8,12,12


In [7]:
arr2 = arr1.reshape((2,2)).copy()
arr2

array([[1, 2],
       [3, 4]])

In [8]:
df + arr2

ValueError: Unable to coerce to DataFrame, shape must be (3, 4): given (2, 2)

2) 与Series对象运算

In [27]:
s = pd.Series(data=[1,2,3], index=[1,2,3])
s

1    1
2    2
3    3
dtype: int64

In [20]:
df

Unnamed: 0,A,B,C,D
0,0,7,3,7
1,9,1,6,3
2,0,6,9,8


In [28]:
# DataFrame和Series运算，默认就是列索引对齐原则
df + s

Unnamed: 0,A,B,C,D,1,2,3
0,,,,,,,
1,,,,,,,
2,,,,,,,


In [26]:
df

Unnamed: 0,A,B,C,D
0,0,7,3,7
1,9,1,6,3
2,0,6,9,8


In [25]:
s

0    1
1    2
2    3
dtype: int64

In [30]:
type(np.nan)

float

In [29]:
df.add(s, axis='index')

Unnamed: 0,A,B,C,D
0,,,,
1,10.0,2.0,7.0,4.0
2,2.0,8.0,11.0,10.0
3,,,,


3) 与DataFrame对象运算
- 索引对齐原则（row\columns)
- 对不齐补空值， 使用add\sub\mul\div函数处理空值


Python 操作符与pandas操作函数的对应表：

| Python Operator | Pandas Method(s)                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |

In [31]:
df1 = pd.DataFrame(data=np.random.randint(0, 10, size=(3,3)), columns=list('ABC'))
df2 = pd.DataFrame(data=np.random.randint(0,10,size=(2,2)), columns=list('BA'))

display(df1, df2)

Unnamed: 0,A,B,C
0,1,2,8
1,0,4,0
2,7,3,2


Unnamed: 0,B,A
0,0,3
1,3,4


In [32]:
df1 + df2

Unnamed: 0,A,B,C
0,4.0,2.0,
1,4.0,7.0,
2,,,


In [33]:
df1.add(df2, fill_value=0)

Unnamed: 0,A,B,C
0,4.0,2.0,8.0
1,4.0,7.0,0.0
2,7.0,3.0,2.0


In [36]:
# fill_value不支持DataFrame和Series之间的运算
df1.add(s, fill_value=0)

NotImplementedError: fill_value 0 not supported.

4) NumPy functions

In [39]:
arr = np.random.randint(-10, 10, size=(3,3))
arr

array([[  3, -10,  -8],
       [  2,  -4, -10],
       [  5,  -5,   7]])

In [43]:
df = pd.DataFrame(data=arr)
df

Unnamed: 0,0,1,2
0,3,-10,-8
1,2,-4,-10
2,5,-5,7


In [44]:
np.abs(df)

Unnamed: 0,0,1,2
0,3,10,8
1,2,4,10
2,5,5,7


5) 转置运算

In [47]:
df

Unnamed: 0,0,1,2
0,3,-10,-8
1,2,-4,-10
2,5,-5,7


In [46]:
df.T

Unnamed: 0,0,1,2
0,3,2,5
1,-10,-4,-5
2,-8,-10,7


##  Pandas访问

In [51]:
arr = np.random.randint(0, 10, size=(5))
arr

array([5, 2, 1, 5, 2])

In [52]:
arr > 2

array([ True, False, False,  True, False])

In [None]:
ndarray[ndim1_index, ndim2_index....]

ndim_index:  索引、索引列表、BOOL列表、切片、条件表达式

In [54]:
arr[0] = 10

In [55]:
arr2 = np.random.randint(0, 10, size=(5, 6))
arr2

array([[4, 6, 2, 7, 2, 9],
       [4, 2, 6, 3, 9, 5],
       [1, 7, 9, 8, 9, 4],
       [4, 6, 1, 1, 5, 5],
       [0, 1, 2, 8, 1, 1]])

In [59]:
arr2[2, 1] = 100

In [60]:
arr2

array([[  4,   6,   2,   7,   2,   9],
       [  4,   2,   6,   3,   9,   5],
       [  1, 100,   9,   8,   9,   4],
       [  4,   6,   1,   1,   5,   5],
       [  0,   1,   2,   8,   1,   1]])

In [61]:
df = pd.DataFrame(data=arr2, columns=list('ABCDEF'))
df

Unnamed: 0,A,B,C,D,E,F
0,4,6,2,7,2,9
1,4,2,6,3,9,5
2,1,100,9,8,9,4
3,4,6,1,1,5,5
4,0,1,2,8,1,1


In [62]:
df.values

array([[  4,   6,   2,   7,   2,   9],
       [  4,   2,   6,   3,   9,   5],
       [  1, 100,   9,   8,   9,   4],
       [  4,   6,   1,   1,   5,   5],
       [  0,   1,   2,   8,   1,   1]])

### Basics标准访问形式


|Object Type|Indexers|
|-|-|
|Series|s.loc[indexer]|
|DataFrame|df.loc[row_indexer,column_indexer]|

loc[] 显示访问：在pandas对象中，可以使用标签的形式访问数据


iloc[] 隐式访问：在pandas对象中，也可以使用index的形式访问数据

In [None]:
Series, DataFrame

### 使用Labels访问 loc[]  显示访问

In [68]:
s = pd.Series(data=np.array([True, False, True]), index=list('ABC'))

In [67]:
l1 = [1,2,3,4,5,6]

l1[-2:]

[5, 6]

In [73]:
s

A     True
B    False
C     True
dtype: bool

In [74]:
s['A':'B']

A     True
B    False
dtype: bool

In [None]:
s.loc[labels]

df.loc[row_labels, col_labels]

labels: 标签名， 标签名列表， BOOL列表（没有标签的，有标签），条件表达式, 切片(闭合区间)

> tips： 使用索引切片的都是左闭右开， 使用标签切片的都是闭合区间

In [76]:
df.loc[0, 'A']

4

In [79]:
df.loc[0]

A    4
B    6
C    2
D    7
E    2
F    9
Name: 0, dtype: int32

In [83]:
df.loc[:,['A','B']]

Unnamed: 0,A,B
0,4,6
1,4,2
2,1,100
3,4,6
4,0,1


In [85]:
df.loc[[1,2],['B','C']]

Unnamed: 0,B,C
1,2,6
2,100,9


In [88]:
df.loc[np.array([True, True, False, False, False])]

Unnamed: 0,A,B,C,D,E,F
0,4,6,2,7,2,9
1,4,2,6,3,9,5


In [99]:
bool_list = pd.Series(data=np.array([True, True, False, False, False, True]), index=[0,4,1,2,3,5])
bool_list

0     True
4     True
1    False
2    False
3    False
5     True
dtype: bool

In [93]:
df.loc[bool_list]

Unnamed: 0,A,B,C,D,E,F
0,4,6,2,7,2,9
1,4,2,6,3,9,5


In [97]:
bool_list

0     True
4     True
1    False
2    False
3    False
dtype: bool

In [103]:
bool_list.values

array([ True,  True, False, False, False,  True])

In [104]:
df.loc[:, bool_list.values]

Unnamed: 0,A,B,F
0,4,6,9
1,4,2,5
2,1,100,4
3,4,6,5
4,0,1,1


In [105]:
s = pd.Series(data=np.random.randint(0, 10, size=5), index=list('abcde'))
s

a    7
b    9
c    1
d    7
e    3
dtype: int32

In [106]:
s.loc['b':'c']

b    9
c    1
dtype: int32

In [107]:
s.loc[['b','c']]

b    9
c    1
dtype: int32

In [108]:
s.loc[[False, True, True, False, False]]

b    9
c    1
dtype: int32

In [111]:
s.loc[s > 6]

a    7
b    9
d    7
dtype: int32

### 使用indexer隐式访问 iloc[] 隐式访问

In [None]:
s.iloc[index]

df.iloc[row_index, col_index]

index:  index, index_list, bool_list, 条件表达式， 切片（左闭右开）

In [115]:
df.loc[:, 'A']

0    4
1    4
2    1
3    4
4    0
Name: A, dtype: int32

In [116]:
df.iloc[:, 0]

0    4
1    4
2    1
3    4
4    0
Name: A, dtype: int32

In [119]:
df.iloc[[True, False, True, False, False]]

Unnamed: 0,A,B,C,D,E,F
0,4,6,2,7,2,9
2,1,100,9,8,9,4


In [121]:
# iloc访问，是左闭右开区间
df.iloc[0:3]

Unnamed: 0,A,B,C,D,E,F
0,4,6,2,7,2,9
1,4,2,6,3,9,5
2,1,100,9,8,9,4


In [122]:
# loc访问，显示访问，闭合区间
df.loc[0:2]

Unnamed: 0,A,B,C,D,E,F
0,4,6,2,7,2,9
1,4,2,6,3,9,5
2,1,100,9,8,9,4


### 间接访问

In [126]:
df.loc[0].loc['B'] = 10

In [127]:
df.loc[0, 'B']

Unnamed: 0,A,B,C,D,E,F
0,4,10,2,7,2,9
1,4,2,6,3,9,5
2,1,100,9,8,9,4
3,4,6,1,1,5,5
4,0,1,2,8,1,1


In [130]:
df.loc[:,'B'].iloc[2]

100

In [131]:
df 可以看成是一个Series组成的字典

Unnamed: 0,A,B,C,D,E,F
0,4,10,2,7,2,9
1,4,2,6,3,9,5
2,1,100,9,8,9,4
3,4,6,1,1,5,5
4,0,1,2,8,1,1


注意：直接用中括号访问

标签访问的是列
标签切片的是行

In [132]:
# 把dataframe当字典，列索引就是字典的键，所以可以直接通过[列标签]形式访问列
df['A']

0    4
1    4
2    1
3    4
4    0
Name: A, dtype: int32

In [133]:
df[['A','B']]

Unnamed: 0,A,B
0,4,10
1,4,2
2,1,100
3,4,6
4,0,1


In [138]:
df[0:2]

Unnamed: 0,A,B,C,D,E,F
0,4,10,2,7,2,9
1,4,2,6,3,9,5


In [134]:
df.loc[:, ['A','B']]

Unnamed: 0,A,B
0,4,10
1,4,2
2,1,100
3,4,6
4,0,1


### where() and mask()


where: 满足con条件的保留，其他用other填充

mask: 不满足con条件的保留， 其他用other填充

In [2]:
df = pd.DataFrame(data=np.random.randint(0, 100, size=(5,4)), columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,4,74,24,43
1,49,46,56,42
2,97,23,90,26
3,47,55,63,22
4,81,73,9,45


In [6]:
condition = df > 60

In [9]:
condition = df['A'] > 60

In [11]:
df.where(cond=df>60, other='不及格')

Unnamed: 0,A,B,C,D
0,不及格,74,不及格,不及格
1,不及格,不及格,不及格,不及格
2,97,不及格,90,不及格
3,不及格,不及格,63,不及格
4,81,73,不及格,不及格


In [13]:
df['A'] > 60

0    False
1    False
2     True
3    False
4     True
Name: A, dtype: bool

In [14]:
df.where(cond=df['A'] > 60, other='其他')

Unnamed: 0,A,B,C,D
0,其他,其他,其他,其他
1,其他,其他,其他,其他
2,97,23,90,26
3,其他,其他,其他,其他
4,81,73,9,45


In [20]:
df.where(cond=df > 60, other=pd.Series(data=[100,200], index=['A','B']), axis=1)

Unnamed: 0,A,B,C,D
0,100,74,,
1,100,200,,
2,97,200,90.0,
3,100,200,63.0,
4,81,73,,


In [21]:
df.where(cond=df > 60, other=pd.Series(data=[100,200], index=[1,2]), axis=0)

Unnamed: 0,A,B,C,D
0,,74.0,,
1,100.0,100.0,100.0,100.0
2,97.0,200.0,90.0,200.0
3,,,63.0,
4,81.0,73.0,,


In [23]:
df.mask(cond=df > 60, other='及格')

Unnamed: 0,A,B,C,D
0,4,及格,24,43
1,49,46,56,42
2,及格,23,及格,26
3,47,55,及格,22
4,及格,及格,9,45


In [25]:
df.mask(cond=df > 60, other=pd.Series(data=[100, 200, 300, 400], index=['A','B','C','D']), axis=1)

Unnamed: 0,A,B,C,D
0,4,200,24,43
1,49,46,56,42
2,100,23,300,26
3,47,55,300,22
4,100,200,9,45


### The query() Method

In [28]:
df

Unnamed: 0,A,B,C,D
0,4,74,24,43
1,49,46,56,42
2,97,23,90,26
3,47,55,63,22
4,81,73,9,45


In [29]:
df.query('A > 60 and B > 60')

Unnamed: 0,A,B,C,D
4,81,73,9,45


In [30]:
df.query('B == 23')

Unnamed: 0,A,B,C,D
2,97,23,90,26


### The filter() Method

对行名和列名进行筛选

In [32]:
df.columns = ['AA','BB','CB','DB']
df

Unnamed: 0,AA,BB,CB,DB
0,4,74,24,43
1,49,46,56,42
2,97,23,90,26
3,47,55,63,22
4,81,73,9,45


使用items选择行、列名称，配合axis

In [36]:
df[['AA','BB']]

Unnamed: 0,AA,BB
0,4,74
1,49,46
2,97,23
3,47,55
4,81,73


In [35]:
df.filter(items=[0, 1], axis=0)

Unnamed: 0,AA,BB,CB,DB
0,4,74,24,43
1,49,46,56,42


使用regex正则表达式，模糊匹配名称

In [39]:
df.filter(regex='.*B.*', axis=1)

Unnamed: 0,BB,CB,DB
0,74,24,43
1,46,56,42
2,23,90,26
3,55,63,22
4,73,9,45


In [38]:
df.filter(regex='^B', axis=1)

Unnamed: 0,BB
0,74
1,46
2,23
3,55
4,73


## 聚合函数

|Function| Description| 备注 |
|-|-|-|
|count| Number of non-NA observations|个数|
|sum| Sum of values|求和|
|mean| Mean of values|均值|
|mad| Mean absolute deviation|绝对值均值|
|median| Arithmetic median of values|中位数|
|min| Minimum|最小值|
|max| Maximum|最大值|
|mode| Mode|众数|
|abs|Absolute Value|绝对值|
|prod| Product of values|乘积|
|std| Bessel-corrected sample standard deviation|标准差|
|var| Unbiased variance|方差|
|quantile| Sample quantile (value at %)|分位数|
|cumsum| Cumulative sum|累和|
|cumprod| Cumulative product|累积|

In [42]:
arr1 = df.values

In [46]:
arr1

array([[ 4, 74, 24, 43],
       [49, 46, 56, 42],
       [97, 23, 90, 26],
       [47, 55, 63, 22],
       [81, 73,  9, 45]])

In [47]:
arr1.sum(axis=1)

array([145, 193, 236, 187, 208])

In [48]:
arr1.mean(axis=0)

array([55.6, 54.2, 48.4, 35.6])

In [54]:
arr1 = arr1.astype(np.float32)

In [55]:
arr1

array([[ 4., 74., 24., 43.],
       [49., 46., 56., 42.],
       [97., 23., 90., 26.],
       [47., 55., 63., 22.],
       [81., 73.,  9., 45.]], dtype=float32)

In [56]:
arr1[1,1] = np.nan

In [58]:
arr1.sum()

nan

In [59]:
np.nansum(arr1)

923.0

In [61]:
df.loc[1, 'BB'] = np.nan

In [64]:
df

Unnamed: 0,AA,BB,CB,DB
0,4,74.0,24,43
1,49,,56,42
2,97,23.0,90,26
3,47,55.0,63,22
4,81,73.0,9,45


In [63]:
# DataFrame默认是列方向的聚合
# pandas自动忽略空值
df.sum()

AA    278.0
BB    225.0
CB    242.0
DB    178.0
dtype: float64

In [66]:
df.sum(axis=1)

0    145.0
1    147.0
2    236.0
3    187.0
4    208.0
dtype: float64

In [70]:
np.nansum(df.values)

923.0

In [83]:
df.sum().sum()

923.0

## 习题

背景：假设班级有 张三、李四、王五、赵六四位同学，考试要考的科目有Python、Java、C

1. 假设score1是期中考试成绩，score2是期末考试成绩，请自由创建score1和score2，并将其相加，求期中期末平均值。

2. 假设张三期中考试Java被发现作弊，要记为0分，如何实现？

3. 李四因为举报张三作弊立功，期中考试所有科目加10分，如何实现？

4. 由于有一道题出错，要给所有学生加10分，如何实现？

5. Python老师想知道哪些同学的Java成绩比Python好，如何实现？

In [1]:
import numpy as np
import pandas as pd

In [3]:
data1 = np.random.randint(0, 100, size=(4,3))
data2 = np.random.randint(0, 100, size=(4,3))
index = ['张三', '李四', '王五', '赵六']
columns = ['Python', 'Java', 'C']
score1 = pd.DataFrame(data=data1, index=index, columns=columns)
score2 = pd.DataFrame(data=data2, index=index, columns=columns)
display(score1, score2)

Unnamed: 0,Python,Java,C
张三,64,95,96
李四,69,12,77
王五,30,61,43
赵六,46,73,28


Unnamed: 0,Python,Java,C
张三,10,40,94
李四,66,10,51
王五,68,30,67
赵六,98,47,98


In [4]:
(score1 + score2)/2

Unnamed: 0,Python,Java,C
张三,37.0,67.5,95.0
李四,67.5,11.0,64.0
王五,49.0,45.5,55.0
赵六,72.0,60.0,63.0


In [7]:
# score1.loc['张三', 'C'] = 0
# score1['C']['张三'] = 95
score1.loc['张三', 'Java'] = 0

score1

Unnamed: 0,Python,Java,C
张三,64,0,95
李四,69,12,77
王五,30,61,43
赵六,46,73,28


In [10]:
score1.loc['李四'] += 10
score1

Unnamed: 0,Python,Java,C
张三,64,0,95
李四,89,32,97
王五,30,61,43
赵六,46,73,28


In [11]:
score1 += 10

In [12]:
score1

Unnamed: 0,Python,Java,C
张三,74,10,105
李四,99,42,107
王五,40,71,53
赵六,56,83,38


In [13]:
score1.query('Python > Java')

Unnamed: 0,Python,Java,C
张三,74,10,105
李四,99,42,107


In [14]:
cond = score1['Java'] > score1['Python']
score1.loc[cond].index

Index(['王五', '赵六'], dtype='object')

In [1]:
import numpy as np
import pandas as pd

In [6]:
index = ['张三','李四','王五','赵六']
columns = ['Python','Java','C']

score1 = pd.DataFrame(data=np.random.randint(30, 100, size=(4, 3)), index=index, columns=columns)
score2 = pd.DataFrame(data=np.random.randint(30, 100, size=(4, 3)), index=index, columns=columns)

In [7]:
display(score1, score2)

Unnamed: 0,Python,Java,C
张三,74,58,77
李四,90,91,36
王五,72,76,80
赵六,85,52,39


Unnamed: 0,Python,Java,C
张三,90,66,63
李四,85,79,67
王五,80,68,67
赵六,75,43,85


In [9]:
(score1 + score2)/2

Unnamed: 0,Python,Java,C
张三,82.0,62.0,70.0
李四,87.5,85.0,51.5
王五,76.0,72.0,73.5
赵六,80.0,47.5,62.0


In [None]:
df.loc[row_labels, col_labels]

# 标签名, 标签名列表, BOOL列表（条件表达式）, 切片

s.loc[]

In [12]:
score1

Unnamed: 0,Python,Java,C
张三,74,58,77
李四,90,91,36
王五,72,76,80
赵六,85,52,39


In [13]:
# 间接访问：有风险 
score1.loc['张三']['Java']

58

In [15]:
score1.loc['张三','Java'] = 0

In [16]:
score1

Unnamed: 0,Python,Java,C
张三,74,0,77
李四,90,91,36
王五,72,76,80
赵六,85,52,39


In [18]:
score1.loc['李四'] += 10

In [19]:
score1

Unnamed: 0,Python,Java,C
张三,74,0,77
李四,100,101,46
王五,72,76,80
赵六,85,52,39


In [22]:
score1 = score1 + 10

In [23]:
score1

Unnamed: 0,Python,Java,C
张三,84,10,87
李四,110,111,56
王五,82,86,90
赵六,95,62,49


In [27]:
cond = score1['Python'] < score1['Java']
cond

张三    False
李四     True
王五     True
赵六    False
dtype: bool

In [32]:
score1.loc[cond].index

Index(['李四', '王五'], dtype='object')

## 单层索引和多层级索引

In [65]:
df = pd.DataFrame(data=np.random.randint(0, 10, size=(5,3)), columns=list('ABC'))

In [70]:
df

Unnamed: 0,A,B,C
a,0,2,7
b,8,3,0
c,7,0,8
d,3,9,8
e,0,7,7


In [87]:
df.index = list('abcde')

In [88]:
df.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [71]:
df.columns = [1,2,3]

In [72]:
df

Unnamed: 0,1,2,3
a,0,2,7
b,8,3,0
c,7,0,8
d,3,9,8
e,0,7,7


In [73]:
# RangeIndex : Index implementing a monotonic integer range.
# CategoricalIndex : Index of :class:`Categorical` s.
# MultiIndex : A multi-level, or hierarchical, Index.
# IntervalIndex : An Index of :class:`Interval` s.
# DatetimeIndex, TimedeltaIndex, PeriodIndex
# Int64Index, UInt64Index,  Float64Index

pd.Index(data=[1,2,3])

Int64Index([1, 2, 3], dtype='int64')

In [78]:
m_index = pd.RangeIndex(start=0, stop=5, step=1, name='index')

In [75]:
np.arange(0, 10, step=1)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [79]:
df.index = m_index

In [80]:
df

Unnamed: 0_level_0,1,2,3
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,0,2,7
1,8,3,0
2,7,0,8
3,3,9,8
4,0,7,7


In [81]:
for i in m_index:
    print(i)

0
1
2
3
4


In [83]:
temp = pd.CategoricalIndex(data=[1,2,3,4])

In [86]:
temp[-1]

4

In [None]:
怎么使用索引：
pd.Index是pandas提供的专门用于构造索引的类，它有很多子类，CategoricalIndex， RangeIndex
所有的子类都具备Index类的特点，比如可以使用索引访问元素

通常如果需要对索引定制(name),可以使用pd.Index系列方法来构造索引

如果没有特殊需求，使用普通的列表完全没有问题

### 单层索引

使用pd.Index()

### 多层索引构造

使用arrays
pd.MultiIndex.from_arrays()

In [89]:
LEVEL1 = ['第一期','第二期']
LEVEL2 = ['A','B','C']

In [101]:
df.index

MultiIndex([('第一期', 'lucy'),
            ('第一期',  'tom'),
            ('第一期', 'alex'),
            ('第二期', 'lucy'),
            ('第二期',  'tom'),
            ('第二期', 'alex')],
           names=['期数', '销售员'])

In [108]:
columns = pd.MultiIndex.from_arrays([['第一期', '第一期', '第一期', '第二期','第二期','第二期'], 
['lucy','tom','alex','lucy','tom','alex']])

index = list('ABC')
data = np.random.randint(0, 100, size=(3, 6))

pd.DataFrame(data=data, index=index, columns=columns)

# [['第一期', '第一期', '第一期', '第二期','第二期','第二期'], 
# ['lucy','tom','alex','lucy','tom','alex']]
# 可以直接作为多层索引使用，不需要构造MultiIndex对象
# pd.MultiIndex.from_arrays([必须是一个如上的二维数组结构])

# 麻烦，不采用，了解即可

Unnamed: 0_level_0,第一期,第一期,第一期,第二期,第二期,第二期
Unnamed: 0_level_1,lucy,tom,alex,lucy,tom,alex
A,38,45,10,29,57,53
B,12,1,79,7,40,63
C,31,38,18,39,18,2


使用tuple
pd.MultiIndex.from_tuples

In [104]:
tuples = pd.MultiIndex.from_tuples([('第一期', 'lucy'),
            ('第一期',  'tom'),
            ('第一期', 'alex'),
            ('第二期', 'lucy'),
            ('第二期',  'tom'),
            ('第二期', 'alex')])
index = list('ABC')
data = np.random.randint(0, 100, size=(3, 6))
pd.DataFrame(data=data, index=index, columns=tuples)

Unnamed: 0_level_0,第一期,第一期,第一期,第二期,第二期,第二期
Unnamed: 0_level_1,lucy,tom,alex,lucy,tom,alex
A,66,85,61,14,50,41
B,97,66,31,21,57,20
C,53,55,89,70,35,57


使用product
pd.MultiIndex.from_product

In [92]:
columns = pd.MultiIndex.from_product([LEVEL1, LEVEL2], names=['期数','产品'])

In [96]:
index = pd.Index(data=['lucy','tom','alex'], name='销售员')
data = np.random.randint(0, 100,size=(3,6))

df = pd.DataFrame(data=data, index=index, columns=columns)

In [97]:
df

期数,第一期,第一期,第一期,第二期,第二期,第二期
产品,A,B,C,A,B,C
销售员,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
lucy,15,67,80,96,94,11
tom,43,76,6,72,56,35
alex,95,82,3,84,49,88


In [152]:
index = pd.MultiIndex.from_product([['第一期','第二期'], ['lucy','tom','alex']], names=['期数','销售员'])
columns = pd.Index(data=['A','B','C'], name='产品名称')
data = np.random.randint(0, 100, size=(6,3))

df = pd.DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,产品名称,A,B,C
期数,销售员,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
第一期,lucy,25,5,46
第一期,tom,60,86,65
第一期,alex,22,67,24
第二期,lucy,37,21,55
第二期,tom,66,76,52
第二期,alex,59,42,36


### 多层索引访问

In [None]:
显示索引
df.loc[row_labels, col_labels]

s.loc[labels]

labels: 标签名称  标签名称列表  条件表达式（bool）  切片

In [139]:
df.loc[:,'A']

期数   销售员 
第一期  alex    92
     lucy    44
     tom     84
第二期  alex     8
     lucy    95
     tom     99
Name: A, dtype: int32

In [140]:
df.loc[:, ['A','B']]

Unnamed: 0_level_0,产品名称,A,B
期数,销售员,Unnamed: 2_level_1,Unnamed: 3_level_1
第一期,alex,92,66
第一期,lucy,44,11
第一期,tom,84,70
第二期,alex,8,68
第二期,lucy,95,2
第二期,tom,99,7


In [141]:
df.loc[:, 'A':'B']

Unnamed: 0_level_0,产品名称,A,B
期数,销售员,Unnamed: 2_level_1,Unnamed: 3_level_1
第一期,alex,92,66
第一期,lucy,44,11
第一期,tom,84,70
第二期,alex,8,68
第二期,lucy,95,2
第二期,tom,99,7


In [144]:
df

Unnamed: 0_level_0,产品名称,A,B,C
期数,销售员,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
第一期,alex,92,66,1
第一期,lucy,44,11,50
第一期,tom,84,70,92
第二期,alex,8,68,56
第二期,lucy,95,2,40
第二期,tom,99,7,98


In [143]:
df.index

MultiIndex([('第一期', 'alex'),
            ('第一期', 'lucy'),
            ('第一期',  'tom'),
            ('第二期', 'alex'),
            ('第二期', 'lucy'),
            ('第二期',  'tom')],
           names=['期数', '销售员'])

In [145]:
df.loc[('第一期','alex')]

产品名称
A    92
B    66
C     1
Name: (第一期, alex), dtype: int32

In [146]:
df.loc[[('第一期','alex'), ('第二期','alex')]]

Unnamed: 0_level_0,产品名称,A,B,C
期数,销售员,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
第一期,alex,92,66,1
第二期,alex,8,68,56


In [147]:
df.loc[('第一期','alex'):('第二期','alex')]

Unnamed: 0_level_0,产品名称,A,B,C
期数,销售员,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
第一期,alex,92,66,1
第一期,lucy,44,11,50
第一期,tom,84,70,92
第二期,alex,8,68,56


In [None]:
总结：
多层索引的访问逻辑，与单层索引的访问逻辑完全一致
但是，多层索引的索引表达形式是以元组的方式处理的

In [151]:
# 【注意】可以从外层索引开始，一级一级的向内层访问，但是不能越级访问
df.loc['第一期'].loc['alex']

产品名称
A    92
B    66
C     1
Name: alex, dtype: int32

In [None]:
# 【注意】切片 索引必须要先排序
# 切片要先将索引进行从小到大的排序  df.sort_index()

使用lables

In [161]:
df.loc[('第一期','alex'):('第二期','alex')]

Unnamed: 0_level_0,产品名称,A,B,C
期数,销售员,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
第一期,alex,22,67,24
第一期,lucy,25,5,46
第一期,tom,60,86,65
第二期,alex,59,42,36


In [159]:
df.sort_index(inplace=True)

In [160]:
df

Unnamed: 0_level_0,产品名称,A,B,C
期数,销售员,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
第一期,alex,22,67,24
第一期,lucy,25,5,46
第一期,tom,60,86,65
第二期,alex,59,42,36
第二期,lucy,37,21,55
第二期,tom,66,76,52


In [None]:
隐式

使用index

In [163]:
df.iloc[0:4]

Unnamed: 0_level_0,产品名称,A,B,C
期数,销售员,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
第一期,alex,22,67,24
第一期,lucy,25,5,46
第一期,tom,60,86,65
第二期,alex,59,42,36


In [164]:
df.iloc[0]

产品名称
A    22
B    67
C    24
Name: (第一期, alex), dtype: int32

In [165]:
df.iloc[[0,1]]

Unnamed: 0_level_0,产品名称,A,B,C
期数,销售员,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
第一期,alex,22,67,24
第一期,lucy,25,5,46


In [166]:
df

Unnamed: 0_level_0,产品名称,A,B,C
期数,销售员,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
第一期,alex,22,67,24
第一期,lucy,25,5,46
第一期,tom,60,86,65
第二期,alex,59,42,36
第二期,lucy,37,21,55
第二期,tom,66,76,52


## Stack和Unstack

In [175]:
# unstack把行索引向列索引变换
# stack 把列索引向行索引变换
df.unstack(level=1).unstack().unstack()

Unnamed: 0_level_0,期数,第一期,第二期
产品名称,销售员,Unnamed: 2_level_1,Unnamed: 3_level_1
A,alex,22,59
A,lucy,25,37
A,tom,60,66
B,alex,67,42
B,lucy,5,21
B,tom,86,76
C,alex,24,36
C,lucy,46,55
C,tom,65,52


### 练习

1. 创建一个DataFrame，表示出lucy,tom,jack期中期末各科(python,java,c)成绩
2. 获取上学期lucy成绩的最高分是哪门学科
3. 同时获取上学期和下学期tom的成绩，计算tom的各学科的平均成绩
4. 获取上学期jack的python成绩，并给他加20分

In [180]:
data1 = np.random.randint(0, 100, size=(3,3))
data2 = np.random.randint(0, 100, size=(3,3))

index = pd.Index(data=['lucy','tom','jack'], name='姓名')
columns = pd.Index(data=['python','java','c'], name='学科')
score1 = pd.DataFrame(data=data1, index=index, columns=columns)
score2 = pd.DataFrame(data=data2, index=index, columns=columns)

In [181]:
display(score1, score2)

学科,python,java,c
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
lucy,45,85,97
tom,66,61,47
jack,84,96,18


学科,python,java,c
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
lucy,37,45,8
tom,46,5,69
jack,90,20,72


In [184]:
score1.loc['lucy'].max()

97

In [190]:
score1.loc['lucy'] == score1.loc['lucy'].max()

学科
python    False
java      False
c          True
Name: lucy, dtype: bool

In [192]:
# 使用此结构访问 数据 df.loc[row_labels, col_labels]
# row_labels 就是 'lucy'
# col_labels 就是 score1.loc['lucy'] == score1.loc['lucy'].max() 返回一个BOOL值
score1.loc['lucy', score1.loc['lucy'] == score1.loc['lucy'].max()].index[0]

'c'

In [199]:
score1

学科,python,java,c
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
lucy,45,85,97
tom,66,61,47
jack,84,96,18


In [200]:
score1.query('python > 50')

学科,python,java,c
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
tom,66,61,47
jack,84,96,18


In [204]:
score1.T.query('lucy == 97').index[0]

'c'

In [205]:
# 使用一个多层级索引来表达数据

columns = pd.MultiIndex.from_product([['上学期','下学期'],['java','python','c']])
index = ['lucy','tom','jack']
data = np.random.randint(0, 100, size=(3,6))
score = pd.DataFrame(data=data, index=index, columns=columns)
score

Unnamed: 0_level_0,上学期,上学期,上学期,下学期,下学期,下学期
Unnamed: 0_level_1,java,python,c,java,python,c
lucy,45,61,64,37,71,93
tom,72,46,4,71,6,37
jack,94,45,6,26,8,56


In [206]:
score.loc['tom']

上学期  java      72
     python    46
     c          4
下学期  java      71
     python     6
     c         37
Name: tom, dtype: int32

In [210]:
tom_score = score.loc['tom']
tom_score.unstack().mean()

c         20.5
java      71.5
python    26.0
dtype: float64

In [213]:
score.loc['jack', ('上学期','python')] += 20

In [214]:
score

Unnamed: 0_level_0,上学期,上学期,上学期,下学期,下学期,下学期
Unnamed: 0_level_1,java,python,c,java,python,c
lucy,45,61,64,37,71,93
tom,72,46,4,71,6,37
jack,94,65,6,26,8,56


In [221]:
score1 = score.stack(level=-2).unstack(level=-2).stack(level=-1)

In [222]:
score1

Unnamed: 0,Unnamed: 1,c,java,python
上学期,lucy,64,45,61
上学期,tom,4,72,46
上学期,jack,6,94,65
下学期,lucy,93,37,71
下学期,tom,37,71,6
下学期,jack,56,26,8


In [224]:
score1.loc[[('上学期','tom'),('下学期','tom')]].mean()

c         20.5
java      71.5
python    26.0
dtype: float64

In [226]:
score1.loc[('上学期','jack'), 'python'] -= 20

In [227]:
score1

Unnamed: 0,Unnamed: 1,c,java,python
上学期,lucy,64,45,61
上学期,tom,4,72,46
上学期,jack,6,94,45
下学期,lucy,93,37,71
下学期,tom,37,71,6
下学期,jack,56,26,8
