# Pandas的数据结构


In [None]:
numpy  array  提供了运算基础 
pandas 提供了业务逻辑的处理方法

Series, DataFrame


导入pandas：  
三剑客

In [1]:
import numpy as np
import pandas as pd

from pandas import Series, DataFrame

import matplotlib as mpl

### 1、Series

In [None]:
一维数组：有序的数据类型相同的集合
Series： 一维数组的强化版，增加了像字典一样的key-value的访问机制，同时也保留了数组的索引访问机制
字典：无序的集合

Series是一种类似于一维数组的对象，由下面两个部分组成：
- values：一组数据（ndarray类型）
- index：相关的数据索引标签

#### 1）Series的创建

两种创建方式：

(1) 由列表或numpy数组创建

    默认索引为0到N-1的整数型索引

In [6]:
# 使用numpy。array构造
arr = np.ones(shape=5)
s1 = Series(arr)
s1

0    1.0
1    1.0
2    1.0
3    1.0
4    1.0
dtype: float64

In [7]:
arr[0] = 8

In [8]:
s1

0    8.0
1    1.0
2    1.0
3    1.0
4    1.0
dtype: float64

In [2]:
# 使用列表构造
names = ["tom","lucy","jack","mery"]
s = Series(names)

In [5]:
names

['tom', 'lucy', 'jack', 'mery']

In [3]:
s

0     tom
1    lucy
2    jack
3    mery
dtype: object

In [9]:
names[0] = "TOM"
names

['TOM', 'lucy', 'jack', 'mery']

In [10]:
s

0     tom
1    lucy
2    jack
3    mery
dtype: object

    还可以通过设置index参数指定索引

In [11]:
names

['TOM', 'lucy', 'jack', 'mery']

In [12]:
# 如果没有手动指定显式索引，则使用隐式索引自动填充
s2 = Series(data=names, index=["key1","key2","key3","key4"])
s2

key1     TOM
key2    lucy
key3    jack
key4    mery
dtype: object

特别地，由ndarray创建的是引用，而不是副本。对Series元素的改变也会改变原来的ndarray对象中的元素。（列表没有这种情况）

(2) 由字典创建

In [17]:
dic = {
    "k1":"tom",
    "k3":"mery",
    "k2":"lucy"
}

# index的优先级要高于字典的键值对的优先级
s3 = Series(data=dic, index=["key1","key3"])
s3

key1   NaN
key3   NaN
dtype: float64

============================================

练习1：

使用多种方法创建以下Series，命名为s1：  
语文 150   
数学 150   
英语 150   
理综 300   

============================================

In [18]:
Series(data=[150,150,150,300], index=["语文","数学","英语","理综"])

语文    150
数学    150
英语    150
理综    300
dtype: int64

In [19]:
dic = {
    "语文":150,
    "数学":150,
    "英语":150,
    "理综":300
}
Series(data=dic)

数学    150
理综    300
英语    150
语文    150
dtype: int64

#### 2）Series的索引和切片

In [21]:
arr = np.random.randint(0,100,size=5)
arr

array([85, 59,  5, 11, 96])

In [22]:
arr[0]

85

In [25]:
arr[[0,0,1,1]]

array([85, 85, 59, 59])

In [26]:
arr[[True, True, False, False, False]]

array([85, 59])

In [27]:
# 1. Series的访问，完全兼容numpy数组访问
s = Series(data=arr, index=["tom","lucy","mery","jack","tony"])
s

tom     85
lucy    59
mery     5
jack    11
tony    96
dtype: int32

In [28]:
s[0]

85

In [30]:
s[[0,1,0,1]]

tom     85
lucy    59
tom     85
lucy    59
dtype: int32

In [42]:
s[np.array([True, True, False, False, False])]

tom     85
lucy    59
dtype: int32

In [33]:
# 2. 使用显示索引访问, 类似字典的键值对访问
s["tom"]

85

In [36]:
s[["tom","tony","tom"]]

tom     85
tony    96
tom     85
dtype: int32

In [38]:
# 3. 使用loc，配合显示索引, 官方推荐的访问机制
s.loc["tom"]
s.loc[["tom","lucy"]]

tom     85
lucy    59
dtype: int32

In [41]:
# 4. 使用iloc，配合隐式索引访问， 官方推荐的隐式索引的访问机制
s.iloc[0]
s.iloc[[0,1,0,1]]

tom     85
lucy    59
tom     85
lucy    59
dtype: int32

In [60]:
# 5. 使用带索引的bool型的Series列表访问
# 【注意】如果使用Series的Bool列表，要注意索引对齐，顺序不要求一致，内容要求一致，长度一致
s_bool = Series(data=[True, True, False, False, False], index=["mery","tom","jack","tony","lucy"])

# 【注意】bool列表和要访问的对象的长度保持一致
n_bool = np.array([True, True, False, False, False])
l_bool = [True, True, False, False, False]

In [61]:
s[s_bool]

IndexingError: Unalignable boolean Series provided as indexer (index of the boolean Series and of the indexed object do not match

In [63]:
s.loc[s_bool]

IndexingError: Unalignable boolean Series provided as indexer (index of the boolean Series and of the indexed object do not match

可以使用中括号取单个索引（此时返回的是元素类型），或者中括号里一个列表取多个索引（此时返回的仍然是一个Series类型）。分为显示索引和隐式索引：

(1) 显式索引：

    - 使用index中的元素作为索引值
    - 使用.loc[]（推荐）

 注意，此时是闭区间

(2) 隐式索引：

    - 使用整数作为索引值
    - 使用.iloc[]（推荐）

 注意，此时是半开区间

切片

In [None]:
1. 数组
2. 字典
3. .loc
4. .iloc

In [66]:
s

tom     85
lucy    59
mery     5
jack    11
tony    96
dtype: int32

In [65]:
s[1:3]

lucy    59
mery     5
dtype: int32

In [67]:
# 所有使用标签（显示索引）切片的都是闭区间
s["lucy":"mery"]

lucy    59
mery     5
jack    11
dtype: int32

In [68]:
# 使用loc访问是闭区间
s.loc["lucy":"mery"]

lucy    59
mery     5
dtype: int32

In [69]:
# 使用iloc访问是开区间
s.iloc[1:3]

lucy    59
mery     5
dtype: int32

============================================

练习2：

使用多种方法对练习1创建的Series s1进行索引和切片：

索引：
数学 150 

切片：
语文 150 
数学 150 
英语 150 

============================================

In [71]:
s_score = Series(data=[150,150,150,300], index=["语文","数学","英语","理综"])
s_score

语文    150
数学    150
英语    150
理综    300
dtype: int64

In [76]:
s_score[1]
s_score["数学"]
s_score.loc["数学"]
s_score.iloc[1]

150

In [80]:
s_score[0:3]
s_score["语文":"英语"]

s_score.loc["语文":"英语"]
s_score.iloc[0:3]

语文    150
数学    150
英语    150
dtype: int64

#### 3）Series的基本概念

可以把Series看成一个定长的有序字典

可以通过shape，size，index,values等得到series的属性

In [85]:
s_score.shape

(4,)

In [83]:
s_score.size

4

In [89]:
# 获取显示索引
# Series(data, index)
s_score.index

Index(['语文', '数学', '英语', '理综'], dtype='object')

In [90]:
s_score.values

array([150, 150, 150, 300], dtype=int64)

In [96]:
# eg1. 
(s_score.index == "俄语").any()

False

In [97]:
# eg2.
s_score2 = Series(data=np.random.randint(0,150,size=4), index=s_score.index)
s_score2

语文     30
数学     32
英语     91
理综    130
dtype: int32

可以使用head(),tail()分别查看前n个和后n个值

In [100]:
# 是切片操作，但一般用于查看数据的结构
s_score.head(2)

语文    150
数学    150
dtype: int64

In [102]:
s_score.tail(1)

理综    300
dtype: int64

当索引没有对应的值时，可能出现缺失数据显示NaN（not a number）的情况

In [105]:
dic = {
    "name":"tom",
    "address":"北京"
}
s = Series(data=dic, index=["name","address","oldname"])

可以使用pd.isnull()，pd.notnull()，或自带isnull(),notnull()函数检测缺失数据

In [None]:
any()  查看一个bool列表中是否至少存在一个True
all()  查看一个bool列表中是否全都是True

In [106]:
s

name       tom
address     北京
oldname    NaN
dtype: object

In [108]:
# 查看大量的数据集中是否存在至少一个空值
s.isnull().any()

True

In [110]:
s.notnull().all()

False

使用bool型的列表访问数组对象

Series对象本身及其实例都有一个name属性

In [114]:
s_score.name = "学科"
s_score

语文    150
数学    150
英语    150
理综    300
Name: 学科, dtype: int64

In [115]:
# Name属性，往往会成为二维表格中的列字段名称
Series(data=np.random.randint(0,100,size=5), name="score")

0    15
1    45
2    96
3    84
4    11
Name: score, dtype: int32

根据值排序

In [117]:
score = Series(data=np.random.randint(0,100,size=5), index=list("bcade"),name="score")
score

b    58
c    92
a    32
d    86
e    85
Name: score, dtype: int32

In [119]:
score.sort_values(ascending=False)

c    92
d    86
e    85
b    58
a    32
Name: score, dtype: int32

根据索引排序

In [122]:
# 时间相关的会做索引排序
score.sort_index(ascending=True)

a    32
b    58
c    92
d    86
e    85
Name: score, dtype: int32

统计值出现的次数

In [None]:
R 最近消费时间
F 频率
M 消费金额

In [124]:
# 假设这是订单表（order）所有订单用户的ID字段
# 我们现在统计每一个用户的订单个数
user_id = Series(data=np.random.randint(0,10,100))
user_id.value_counts()

8    16
7    13
2    13
5    11
3     9
1     9
0     9
6     8
9     6
4     6
dtype: int64

In [126]:
user_name = Series(data=["tom","tom","tom","lucy","lucy"])
user_name.value_counts()

tom     3
lucy    2
dtype: int64

#### 4）Series的运算

In [None]:
numpy 聚合  sum(), mean() np.median()
      广播机制  

In [127]:
n = np.array([1,2,3,4,5])
n + 4

array([5, 6, 7, 8, 9])

In [129]:
#1. Series和一个数运算，遵守广播机制
s = Series(data=np.random.randint(0,10,size=5), index=list("ABCDE"))
s

A    3
B    4
C    6
D    0
E    7
dtype: int32

In [130]:
s + 4

A     7
B     8
C    10
D     4
E    11
dtype: int32

In [133]:
# Series和numpy运算, 隐式索引对齐
n = np.ones(shape=(2,5))
n

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [137]:
# 这是个numpy，它和n运算是numpy和numpy的运算，所以遵守广播机制
s.values

array([3, 4, 6, 0, 7])

In [134]:
# 这是series和numpy，这不遵守广播
s + n

Exception: Data must be 1-dimensional

In [139]:
n1 = np.ones(shape=(4))
n1 + s

ValueError: operands could not be broadcast together with shapes (4,) (5,) 

(1) 适用于numpy的数组运算也适用于Series

(2) Series之间的运算

- 在运算中自动对齐不同索引的数据
- 如果索引不对应，则补NaN

In [145]:
# Series和Series之间运算时， 显示索引对齐
s1 = Series(data=np.random.randint(0,10,size=5), index=list("abcde"))
s2 = Series(data=np.random.randint(0,10,size=4), index=list("bcde"))
display(s1, s2)

a    5
b    6
c    8
d    8
e    6
dtype: int32

b    8
c    9
d    6
e    2
dtype: int32

In [146]:
s1 + s2

a     NaN
b    14.0
c    17.0
d    14.0
e     8.0
dtype: float64

注意：要想保留所有的index，则需要使用
- add() 加
- sub() 减
- mul() 乘
- div() 除

In [148]:
s1.add(s2, fill_value=0)

a     5.0
b    14.0
c    17.0
d    14.0
e     8.0
dtype: float64

============================================

练习3：

1. 想一想Series运算和ndarray运算的规则有什么不同？

2. 新建另一个索引包含“文综”的Series s2，并与s2进行多种算术操作。

============================================

In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [3]:
index1 = ["语文","数学","英语","理综"]
index2 = ["语文","数学","英语","文综"]

score1 = Series(data=np.random.randint(0,150,size=4), index=index1, name="理科")
score2 = Series(data=np.random.randint(0,150,size=4), index=index2, name="文科")
display(score1, score2)

语文      6
数学     71
英语     51
理综    122
Name: 理科, dtype: int32

语文     20
数学    110
英语    129
文综     73
Name: 文科, dtype: int32

In [4]:
score1 + score2

数学    181.0
文综      NaN
理综      NaN
英语    180.0
语文     26.0
dtype: float64

In [None]:
# NaN和任何数运算都是空值

In [5]:
score1.add(score2, fill_value=0)

数学    181.0
文综     73.0
理综    122.0
英语    180.0
语文     26.0
dtype: float64

In [None]:
# Series、DataFrame 都支持扩展

In [9]:
dic = {
    "name":"dancer"
}
dic["address"] = "beijing"
dic

{'address': 'beijing', 'name': 'dancer'}

In [12]:
score1["文综"] = 0
score1

语文      6
数学     71
英语     51
理综    122
文综      0
Name: 理科, dtype: int64

In [13]:
score2["理综"] = 0
score2

语文     20
数学    110
英语    129
文综     73
理综      0
Name: 文科, dtype: int64

In [14]:
score1 + score2

数学    181
文综     73
理综    122
英语    180
语文     26
dtype: int64

1. 随机生成两组学生成绩，一组python， 一组java， 学生包括lucy、mery、tom、jack
2. 计算每个学生的平均成绩
3. 找出python未及格的学生姓名
4. 找出java未及格的学生姓名
5. 如果需要给mery的python成绩加10分，如何实现
6. 计算各学科的班级平均成绩

In [15]:
index = ["lucy","mery","tom","jack"]
python = Series(data=np.random.randint(0,100,size=4), index=index, name="python")
java = Series(data=np.random.randint(0,100,size=4), index=index, name="java")
display(python, java)

lucy    37
mery    32
tom     54
jack    92
Name: python, dtype: int32

lucy     9
mery    72
tom     67
jack     0
Name: java, dtype: int32

In [None]:
# 1. Series和一个数运算

In [18]:
(python + java)/2

lucy    23.0
mery    52.0
tom     60.5
jack    46.0
dtype: float64

In [21]:
python

lucy    37
mery    32
tom     54
jack    92
Name: python, dtype: int32

In [26]:
# 2. 不及格学生的姓名
python.loc[python < 60].index

Index(['lucy', 'mery', 'tom'], dtype='object')

In [28]:
java.loc[java < 60].index

Index(['lucy', 'jack'], dtype='object')

In [31]:
# 3. 给mery的python加10分
python.loc["mery"] += 10
python

lucy    37
mery    42
tom     54
jack    92
Name: python, dtype: int32

In [35]:
# 4. 求python和java的平均值
python.values.mean(), java.values.mean()

(56.25, 37.0)

In [37]:
# Series对象同样支持聚合操作
python.mean(), java.mean()

(56.25, 37.0)

### 2、DataFrame

DataFrame是一个【表格型】的数据结构，可以看做是【由Series组成的字典】（共用同一个索引）。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。
- 行索引：index
- 列索引：columns
- 值：values（numpy的二维数组）

In [None]:
# 表格数据结构：二维的数据，所以有行和列， 行有行索引，列有列索引
# 是Series的字典, 字典的键就是二维表格的列索引，字典的值通常是一个一维数组（）

In [None]:
      userid, uname, upasword, regin_time, address
lucy   001     lucy
mery   002     mery
tom    003     tom

In [38]:
dic = {
    "userid":Series([001, 002, 003], index = ["lucy","mery","tom"]),
    "uname":Series([lucy, mery, tom], index = ["lucy","mery","tom"]),
}

SyntaxError: invalid token (<ipython-input-38-6d6b8655fb94>, line 2)

#### 1）DataFrame的创建
最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称，以字典的值（一个数组）作为每一列。

此外，DataFrame会自动加上每一行的索引（和Series一样）。

同Series一样，若传入的列与字典的键不匹配，则相应的值为NaN。


In [39]:
# 使用构造函数构造
DataFrame(data=np.random.randint(0,100,size=(3,5)), index=list("abc"), columns=list("ABCDE"))

Unnamed: 0,A,B,C,D,E
a,1,63,60,38,6
b,68,53,67,41,33
c,24,49,92,72,4


In [43]:
dic = {
    "A":["lucy","mery","tom"],
    "B":np.random.randint(0,100,size=3),
    "C":np.random.random(3)*10000,
    "D":np.random.randint(0,100,size=3),
    "E":np.random.randint(0,100,size=3),
}
DataFrame(data=dic, index=list("abc"))

Unnamed: 0,A,B,C,D,E
a,lucy,82,3942.682449,64,51
b,mery,92,8041.270896,10,17
c,tom,52,2723.846058,4,95


DataFrame属性：values、columns、index、shape

#### 从文件中读取DataFrame对象

In [None]:
# pd.read_csv()
# pd.read_table()
# pd.read_excel()

In [46]:
# header 设置excel中，那几行作为列标签，默认就是第一行
# index_col 设置excel中，那几列作为行标签
pd.read_excel('data.xls', header=0, index_col=0)

Unnamed: 0,姓名,地址,成绩
0,lucy,北京,199
1,tom,上海,187
2,jack,广州,150
3,tony,深圳,176


In [49]:
# sheet_name 可以指定索引，也可以指定表名称
df = pd.read_excel('data.xls', header=0, index_col=0, sheet_name=1)

In [51]:
# 保存文件
df.to_excel('mydata.xls')

#### 使用Series构造DataFrame

In [61]:
s = Series(data=np.random.randint(0,100,size=5), index=list("abcde"), name="python")
s.shape

(5,)

In [62]:
df = DataFrame(data=s)
df.shape

(5, 1)

============================================

练习4：

根据以下考试成绩表，创建一个DataFrame，命名为df：
```
    张三  李四
语文 150  0
数学 150  0
英语 150  0
理综 300  0
```

============================================

In [63]:
index = ["语文","数学","英语","理综"]
dic = {
    "张三":[150,150,150,300],
    "李四":np.zeros(shape=4)
}
DataFrame(data=dic, index=index)

Unnamed: 0,张三,李四
语文,150,0.0
数学,150,0.0
英语,150,0.0
理综,300,0.0


In [64]:
DataFrame(data=[[150,0],[150,0],[150,0],[300,0]], index=index, columns=["张三","李四"])

Unnamed: 0,张三,李四
语文,150,0
数学,150,0
英语,150,0
理综,300,0


#### 2）DataFrame的索引

In [65]:
arr = np.random.randint(0,100,size=(3,5))
arr

array([[97, 71, 48,  4, 94],
       [36, 91, 28, 31,  2],
       [81, 31, 56, 10, 38]])

In [66]:
arr[0,1]

71

In [67]:
arr[0]

array([97, 71, 48,  4, 94])

In [69]:
arr[[0,1]]

array([[97, 71, 48,  4, 94],
       [36, 91, 28, 31,  2]])

In [68]:
arr[:,0]

array([97, 36, 81])

In [70]:
arr[:,[0,1]]

array([[97, 71],
       [36, 91],
       [81, 31]])

(1) 对列进行索引

    - 通过类似字典的方式
    - 通过属性的方式

 可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引，且name属性也已经设置好了，就是相应的列名。

In [85]:
df = DataFrame(data=np.random.randint(0,100,size=(3,5)), columns=list("ABCDE"), index=list("abc"))
df

Unnamed: 0,A,B,C,D,E
a,0,78,46,95,74
b,78,65,69,68,86
c,47,98,93,14,91


In [75]:
# 字典访问
df["A"]

0    39
1    65
2    52
Name: A, dtype: int32

In [77]:
# 使用标签列表访问列
df[["A","B"]]

Unnamed: 0,A,B
0,39,23
1,65,89
2,52,98


In [76]:
# 属性访问
df.A

0    39
1    65
2    52
Name: A, dtype: int32

(2) 对行进行索引

    - 使用.ix[]来进行行索引
    - 使用.loc[]加index来进行行索引
    - 使用.iloc[]加整数来进行行索引
    
 同样返回一个Series，index为原来的columns。

In [80]:
df["A"]

0    39
1    65
2    52
Name: A, dtype: int32

In [86]:
df

Unnamed: 0,A,B,C,D,E
a,0,78,46,95,74
b,78,65,69,68,86
c,47,98,93,14,91


In [87]:
df.loc["a"]

A     0
B    78
C    46
D    95
E    74
Name: a, dtype: int32

In [88]:
df.loc[["a","b"]]

Unnamed: 0,A,B,C,D,E
a,0,78,46,95,74
b,78,65,69,68,86


In [89]:
# 这是访问列的方式，不是行,访问行必须使用.loc
df["a"]

ERROR:root:Internal Python error in the inspect module.
Below is the traceback from this internal error.

ERROR:root:Internal Python error in the inspect module.
Below is the traceback from this internal error.

ERROR:root:Internal Python error in the inspect module.
Below is the traceback from this internal error.



Traceback (most recent call last):
  File "C:\Anaconda3\lib\site-packages\pandas\core\indexes\base.py", line 2525, in get_loc
    return self._engine.get_loc(key)
  File "pandas/_libs/index.pyx", line 117, in pandas._libs.index.IndexEngine.get_loc
  File "pandas/_libs/index.pyx", line 139, in pandas._libs.index.IndexEngine.get_loc
  File "pandas/_libs/hashtable_class_helper.pxi", line 1265, in pandas._libs.hashtable.PyObjectHashTable.get_item
  File "pandas/_libs/hashtable_class_helper.pxi", line 1273, in pandas._libs.hashtable.PyObjectHashTable.get_item
KeyError: 'a'

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "C:\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 2910, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "<ipython-input-89-a7df25711ae7>", line 2, in <module>
    df["a"]
  File "C:\Anaconda3\lib\site-packages\pandas\core\frame.py", line 2139, in __getitem__
    ret

TypeError: must be str, not list

In [92]:
# 隐式
df.iloc[[0,2]]

Unnamed: 0,A,B,C,D,E
a,0,78,46,95,74
c,47,98,93,14,91


(3) 对元素索引的方法
    - 使用列索引
    - 使用行索引(iloc[3,1]相当于两个参数;iloc[[3,3]] 里面的[3,3]看做一个参数)
    - 使用values属性（二维numpy数组）

In [94]:
# 元素访问的逻辑和numpy的访问逻辑一致（先行后列）
arr[0,1]

71

In [96]:
df.loc["a","B"]

78

In [97]:
df

Unnamed: 0,A,B,C,D,E
a,0,78,46,95,74
b,78,65,69,68,86
c,47,98,93,14,91


In [98]:
df.iloc[0,1]

78

In [None]:
# 间接访问 赋值时【可能】会带来风险， 只适合读操作

In [108]:
df["B"].loc["a"]
df["B"].iloc[0]
df["B"]["a"]
df["B"].values[0]

78

In [109]:
df.loc["a"]

A     0
B    78
C    46
D    95
E    74
Name: a, dtype: int32

In [112]:
# 直接访问, 适合读写
df.loc["a","A"] = 100
df

Unnamed: 0,A,B,C,D,E
a,100,78,46,95,74
b,78,65,69,68,86
c,47,98,93,14,91


In [114]:
df["A"].loc["a"] = 50

In [118]:
df["A"].loc["a"]

a    100
b     78
c     47
Name: A, dtype: int32

In [117]:
df.loc["a"]["A"] = 100

### 切片

In [None]:
# 标签处理的切片都是闭区间

In [119]:
df

Unnamed: 0,A,B,C,D,E
a,100,78,46,95,74
b,78,65,69,68,86
c,47,98,93,14,91


In [121]:
df["A":"B"]

Unnamed: 0,A,B,C,D,E


In [122]:
df["a":"b"]

Unnamed: 0,A,B,C,D,E
a,100,78,46,95,74
b,78,65,69,68,86


In [123]:
# 行切片
df.loc["a":"b"]

Unnamed: 0,A,B,C,D,E
a,100,78,46,95,74
b,78,65,69,68,86


In [124]:
# 列切片,逻辑和二维数组一样，先行后列
df.loc[:,"A":"B"]

Unnamed: 0,A,B
a,100,78
b,78,65
c,47,98


In [125]:
# 行切片 隐式索引
df.iloc[0:2]

Unnamed: 0,A,B,C,D,E
a,100,78,46,95,74
b,78,65,69,68,86


In [126]:
# 列切片, 隐式索引
df.iloc[:,0:2]

Unnamed: 0,A,B
a,100,78
b,78,65
c,47,98


In [128]:
# 使用BOOL列表访问
l_bool = [True, False, True]
df.loc[l_bool]

Unnamed: 0,A,B,C,D,E
a,100,78,46,95,74
c,47,98,93,14,91


In [129]:
l_bool2 = [True, False, True, False, False]
df.loc[:,l_bool2]

Unnamed: 0,A,C
a,100,46
b,78,69
c,47,93


In [130]:
s_bool = Series(data=[True, False, True], index=list("cba"))
s_bool

c     True
b    False
a     True
dtype: bool

In [131]:
df.loc[s_bool]

Unnamed: 0,A,B,C,D,E
a,100,78,46,95,74
c,47,98,93,14,91


【注意】
直接用中括号时：
- 索引表示的是列索引
- 切片表示的是行切片

============================================

练习5：

使用多种方法对df进行索引和切片，并比较其中的区别

============================================

In [138]:
df

Unnamed: 0,A,B,C,D,E
a,100,78,46,95,74
b,78,65,69,68,86
c,47,98,93,14,91


In [133]:
df[["A","C"]]

Unnamed: 0,A,C
a,100,46
b,78,69
c,47,93


In [136]:
df.loc[:,["A","C"]]

Unnamed: 0,A,C
a,100,46
b,78,69
c,47,93


In [137]:
df.iloc[:,[0,2]]

Unnamed: 0,A,C
a,100,46
b,78,69
c,47,93


In [140]:
df.loc["a":"b","A":"B"]

Unnamed: 0,A,B
a,100,78
b,78,65


In [141]:
df.iloc[0:2,0:2]

Unnamed: 0,A,B
a,100,78
b,78,65


In [143]:
df[["A","B"]].loc[["a","b"]]

Unnamed: 0,A,B
a,100,78
b,78,65


In [145]:
df.loc[["a","b"],["A","B"]]

Unnamed: 0,A,B
a,100,78
b,78,65


#### 3）DataFrame的运算

In [147]:
arr = np.ones(shape=(3,5))
arr

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [148]:
arr.mean()

1.0

In [149]:
arr.sum()

15.0

In [155]:
# 求每一行的和（指定轴向的聚合）
arr.sum(axis=0)

array([3., 3., 3., 3., 3.])

In [156]:
df = DataFrame(data=np.random.randint(0,100,size=(3,5)), index=["lucy","mery","tom"], columns=list("ABCDE"))
df

Unnamed: 0,A,B,C,D,E
lucy,1,41,86,36,7
mery,32,4,5,48,8
tom,67,21,10,12,33


In [161]:
# 求行方向的聚合值
df.mean(axis=1)

lucy    34.2
mery    19.4
tom     28.6
dtype: float64

In [160]:
# 默认是求列方向的聚合值
df.mean(axis=0)

A    33.333333
B    22.000000
C    33.666667
D    32.000000
E    16.000000
dtype: float64

In [162]:
# 
df.sum()

A    100
B     66
C    101
D     96
E     48
dtype: int64

In [None]:
# np.median()
df.median()

（1） DataFrame之间的运算

同Series一样：

- 在运算中自动对齐相同索引的数据
- 如果索引不对应，则补NaN

In [None]:
DataFrame 和 一个数、nuympy    广播机制

DataFrame 和 数组（Series）    索引对齐，axis控制方向

DataFrame 和 DataFrame         索引对齐，部分方向

In [164]:
df > 100

Unnamed: 0,A,B,C,D,E
lucy,False,False,False,False,False
mery,False,False,False,False,False
tom,False,False,False,False,False


In [165]:
df1 = DataFrame(data=np.random.randint(0,10,size=(3,3)), index=list("abc"), columns=list("ABC"))
df2 = DataFrame(data=np.random.randint(0,10,size=(4,4)), index=list("abcd"), columns=list("ABCD"))
display(df1, df2)

Unnamed: 0,A,B,C
a,4,6,5
b,1,6,4
c,9,3,3


Unnamed: 0,A,B,C,D
a,3,4,6,0
b,5,4,5,9
c,6,5,2,7
d,2,1,4,3


In [171]:
df1 + df2

Unnamed: 0,A,B,C,D
a,7.0,10.0,11.0,
b,6.0,10.0,9.0,
c,15.0,8.0,5.0,
d,,,,


In [172]:
arr = df2.values

In [173]:
arr

array([[3, 4, 6, 0],
       [5, 4, 5, 9],
       [6, 5, 2, 7],
       [2, 1, 4, 3]])

In [179]:
arr1 = np.array([1,2,3,4])
arr1

array([1, 2, 3, 4])

In [180]:
# 广播运算
arr + arr1

array([[ 4,  6,  9,  4],
       [ 6,  6,  8, 13],
       [ 7,  7,  5, 11],
       [ 3,  3,  7,  7]])

In [181]:
# 支持广播运算, 沿着行方向算
df2 + arr1

Unnamed: 0,A,B,C,D
a,4,6,9,4
b,6,6,8,13
c,7,7,5,11
d,3,3,7,7


In [185]:
s1 = Series(data=arr1, index=list("abcd"))
s1

a    1
b    2
c    3
d    4
dtype: int32

In [186]:
df2

Unnamed: 0,A,B,C,D
a,3,4,6,0
b,5,4,5,9
c,6,5,2,7
d,2,1,4,3


In [190]:
# DataFrame和Series运算要注意索引对齐
# axis = 0　行索引对齐
# axis = 1 列索引对齐
df2.add(s1, axis=0)

Unnamed: 0,A,B,C,D
a,4,5,7,1
b,7,6,7,11
c,9,8,5,10
d,6,5,8,7


In [175]:
# 如果形状一致，可以进行运算
df2 + arr

Unnamed: 0,A,B,C,D
a,6,8,12,0
b,10,8,10,18
c,12,10,4,14
d,4,2,8,6


创建DataFrame df1 不同人员的各科目成绩，月考一

创建DataFrame df2 不同人员的各科目成绩，月考二  
有新学生转入

下面是Python 操作符与pandas操作函数的对应表：

| Python Operator | Pandas Method(s)                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |


（2） Series与DataFrame之间的运算

【重要】

- 使用Python操作符：以行为单位操作（参数必须是行），对所有行都有效。（类似于numpy中二维数组与一维数组的运算，但可能出现NaN）

- 使用pandas操作函数：

        axis=0：以列为单位操作（参数必须是列），对所有列都有效。
        axis=1：以行为单位操作（参数必须是行），对所有行都有效。

  axis=0（0 == index 行）：以列为单位操作（参数必须是列），对所有列都有效。
  axis=1（1 == columns 列）：以行为单位操作（参数必须是行），对所有行都有效。

【注意】fill_value在df和series之间运算时，不能使用

============================================

练习6：

1. 假设ddd是期中考试成绩，ddd2是期末考试成绩，请自由创建ddd2，并将其与ddd相加，求期中期末平均值。

2. 假设张三期中考试数学被发现作弊，要记为0分，如何实现？

3. 李四因为举报张三作弊立功，期中考试所有科目加100分，如何实现？

4. 后来老师发现有一道题出错了，为了安抚学生情绪，给每位学生每个科目都加10分，如何实现？

============================================