# Pandas的数据结构


pandas是一个数据挖掘的核心工具，在numpy的基础上增添了三个数据结构Series、DataFrame和Pannel，数据分析主要用前两个

In [1]:
import numpy as np
import pandas as pd

In [2]:
from pandas import Series

### 1、Series

Series是一种类似与一维数组的对象，由下面两个部分组成：
- values：一组数据（ndarray类型）
- index：相关的数据索引标签

#### 1）Series的创建

两种创建方式：

(1) 由列表或numpy数组创建

    默认索引为0到N-1的整数型索引

In [3]:
nd = np.array([1,2,3,4,5,6])
nd

array([1, 2, 3, 4, 5, 6])

In [4]:
s = Series(nd,index=["a","b","c","d","e","f"])
s

a    1
b    2
c    3
d    4
e    5
f    6
dtype: int32

In [5]:
l = [12,4,56,78,90]
s1 = Series(l,index=list("ABBBE")) # index的值可以重复
s1

A    12
B     4
B    56
B    78
E    90
dtype: int64

遍历Series中的元素

In [6]:
s["c"]

3

In [7]:
s[2]

3

In [8]:
s1["B"]

B     4
B    56
B    78
dtype: int64

查看Series的组成

In [9]:
s

a    1
b    2
c    3
d    4
e    5
f    6
dtype: int32

In [10]:
s.values

array([1, 2, 3, 4, 5, 6])

In [11]:
s.index # 是一个索引对象，本质上是一个列表,index对象只读

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

In [12]:
s.index[2]

'c'

In [13]:
s.index[1] = "B" # index中的元素是只读的，不能单独修改

TypeError: Index does not support mutable operations

In [None]:
# 给index重新赋值
s.index = list("ABCDEF")

In [14]:
s

a    1
b    2
c    3
d    4
e    5
f    6
dtype: int32

In [15]:
s[1] # 用下标查找实质用的就是s.values的下标
s.values[1] = 100

In [16]:
s

a      1
b    100
c      3
d      4
e      5
f      6
dtype: int32

In [17]:
s["B"] = 1000

In [18]:
s

a       1
b     100
c       3
d       4
e       5
f       6
B    1000
dtype: int64

讨论：有没有创建副本？

In [19]:
nd = np.array([1,2,3,4,5,6])
nd

array([1, 2, 3, 4, 5, 6])

In [20]:
s = Series(nd,index=list("abcdef"))
s

a    1
b    2
c    3
d    4
e    5
f    6
dtype: int32

In [21]:
nd[0] = 1000

In [22]:
s
# 【说明】由数组创建Series没有创建出副本
# 【了解】ndarray是Series的一个组成部分，如果用数组来创建，直接把数组作为Series的values

a    1000
b       2
c       3
d       4
e       5
f       6
dtype: int32

In [23]:
l = [1,2,3,4,5,6]
l

[1, 2, 3, 4, 5, 6]

In [24]:
s1 = Series(l)
s1

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

In [25]:
l[1] = 1000

In [26]:
s1
# 【说明】由列表创建Series，创建了一个副本
# 【了解】因为Series的数据部分(values)是是一个一维的数组，由列表创建的时候需要创建副本

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

(2) 由字典创建

In [27]:
dic = {"A":120,"B":130,"C":140}

In [28]:
s = Series(dic)
s
# 字典创建的时候，是把字典的所有的值拿出来放到s的values里面，把字典的所有的键拿出来放到
# index里面去

A    120
B    130
C    140
dtype: int64

In [29]:
dic["A"] = 1000

In [30]:
s
# 说明由字典到Series这个过程产生了副本

A    120
B    130
C    140
dtype: int64

============================================

练习1：

使用多种方法创建以下Series，命名为s1：  
语文 150   
数学 150   
英语 150   
理综 300   

============================================

#### 2）Series的索引和切片

可以使用中括号取单个索引（此时返回的是元素类型），或者中括号里一个列表取多个索引（此时返回的仍然是一个Series类型）。分为显示索引和隐式索引：

(1) 显式索引：

    - 使用index中的元素作为索引值
    - 使用.loc[]（推荐）

 注意，此时是闭区间

In [31]:
s = Series({"a":12,"b":14,"c":15},index=list("abbcdef"))
# 【注意】用字典创建的时候，如果指定的index和字典的索引不对应，不对应的部分设置为nan
s

a    12.0
b    14.0
b    14.0
c    15.0
d     NaN
e     NaN
f     NaN
dtype: float64

In [32]:
s["a"]

12.0

In [33]:
# 推荐使用下面的方式
s.loc["c"]

15.0

In [34]:
s.loc["a","c"]
# Series是一维，能这样遍历

IndexingError: Too many indexers

In [35]:
s.loc[["a","c"]]

a    12.0
c    15.0
dtype: float64

In [36]:
s.loc[["a"]]
# series的索引如果是一个列表，那么找到的值仍然以Series的形式展现

a    12.0
dtype: float64

(2) 隐式索引：

    - 使用整数作为索引值
    - 使用.iloc[]（推荐）

 注意，此时是半开区间

In [37]:
#隐式索引指的就是values的下标
s[1]

IndexError: 1

In [38]:
# 推荐使用
s.iloc[1]

14.0

In [39]:
s.iloc[[1,2]]

b    14.0
b    14.0
dtype: float64

(3)切片

In [40]:
s.index = list("abbcdce")

In [41]:
s

a    12.0
b    14.0
b    14.0
c    15.0
d     NaN
c     NaN
e     NaN
dtype: float64

In [42]:
s["a":"b"] 

a    12.0
b    14.0
b    14.0
dtype: float64

In [43]:
s["a":"c"]

KeyError: "Cannot get right slice bound for non-unique label: 'c'"

显示切片：

    1）区间全部是闭区间
    2）如果索引用重复的现象，在切片的时候重复的索引如果连续则可以切片，否则将无法切片

In [44]:
s

a    12.0
b    14.0
b    14.0
c    15.0
d     NaN
c     NaN
e     NaN
dtype: float64

In [45]:
s.iloc[0:3] # 隐式切片本质上切的是s的values

a    12.0
b    14.0
b    14.0
dtype: float64

============================================

练习2：

使用多种方法对练习1创建的Series s1进行索引和切片：

索引：
数学 150 

切片：
语文 150 
数学 150 
英语 150 

============================================

#### 3）Series的基本概念

可以把Series看成一个定长的有序字典

可以通过shape，size，index,values等得到series的属性

In [46]:
s

a    12.0
b    14.0
b    14.0
c    15.0
d     NaN
c     NaN
e     NaN
dtype: float64

In [47]:
s.shape

(7,)

In [48]:
s.size

7

In [49]:
s.values

array([12., 14., 14., 15., nan, nan, nan])

In [50]:
s.index

Index(['a', 'b', 'b', 'c', 'd', 'c', 'e'], dtype='object')

可以使用pd.isnull()，pd.notnull()，或自带isnull(),notnull()函数检测缺失数据

In [51]:
s

a    12.0
b    14.0
b    14.0
c    15.0
d     NaN
c     NaN
e     NaN
dtype: float64

In [52]:
pd.isnull(s)
# isnull函数返回一个Series，这个Series形状（index）和原来保存一致，值变成的bool类型
# bool类型的代表的是在这个索引对应的值是否为空

a    False
b    False
b    False
c    False
d     True
c     True
e     True
dtype: bool

In [53]:
pd.notnull(s)

a     True
b     True
b     True
c     True
d    False
c    False
e    False
dtype: bool

创建一个index和s一致，values是bool值的Series

In [54]:
s

a    12.0
b    14.0
b    14.0
c    15.0
d     NaN
c     NaN
e     NaN
dtype: float64

In [55]:
s1 = Series({"a":True,"b":False,"b":True,"c":False,"d":False,"c":True,"e":True},
            index=list("abbcdce"))
s1.iloc[[1,3,4]] = False
s1

a     True
b    False
b     True
c    False
d    False
c     True
e     True
dtype: bool

In [56]:
# A和B如果index一致，但是A的值是bool类型，我们可以用A作为B的索引使用B[A]
# 这种情况下，为True的那些将会被输出，为False的那些将会不被输出
s[s1]

a    12.0
b    14.0
c     NaN
e     NaN
dtype: float64

In [57]:
# 练习：把s中缺失的那些元素用1000来填充
s[s.isnull()] = 1000

In [58]:
s

a      12.0
b      14.0
b      14.0
c      15.0
d    1000.0
c    1000.0
e    1000.0
dtype: float64

In [59]:
# 把s中不缺失的元素改成缺失
s[s.notnull()] = np.nan

In [60]:
s

a   NaN
b   NaN
b   NaN
c   NaN
d   NaN
c   NaN
e   NaN
dtype: float64

In [61]:
ss = Series({"a":True,"b":True})

In [62]:
s[ss] # ss和s索引不一致，不能用ss作为s的索引使用

IndexingError: Unalignable boolean Series provided as indexer (index of the boolean Series and of the indexed object do not match

Series对象本身及其实例都有一个name属性

In [63]:
s = Series({"python":150,"java":100,"h5":100},name="成绩表")
s

python    150
java      100
h5        100
Name: 成绩表, dtype: int64

#### 4）Series的运算

(1) 适用于numpy的数组运算也适用于Series

In [64]:
s + 20 # 20被广播成一个一维数组

python    170
java      120
h5        120
Name: 成绩表, dtype: int64

In [65]:
s+s

python    300
java      200
h5        200
Name: 成绩表, dtype: int64

In [66]:
s / 2

python    75.0
java      50.0
h5        50.0
Name: 成绩表, dtype: float64

In [67]:
s*2

python    300
java      200
h5        200
Name: 成绩表, dtype: int64

In [68]:
s ** 2

python    22500
java      10000
h5        10000
Name: 成绩表, dtype: int64

(2) Series之间的运算

- 在运算中自动对齐不同索引的数据
- 如果索引不对应，则补NaN

- 注意：要想保留所有的index，则需要使用.add()函数

In [69]:
s1 = Series(np.random.randint(0,100,size=4),index=["小明","小王","Jack Ma","Bill"])
s1

小明         38
小王         67
Jack Ma    94
Bill       42
dtype: int32

In [70]:
s2 = Series(np.random.randint(0,100,size=6),index=["小明","小王","Jack Ma","A","B","C"])
s2

小明          8
小王         92
Jack Ma     2
A          92
B          60
C           6
dtype: int32

In [71]:
s1 + s2

A            NaN
B            NaN
Bill         NaN
C            NaN
Jack Ma     96.0
小明          46.0
小王         159.0
dtype: float64

    s1            s2
    小明   10     小明  20
    小王   20  +   小王  30
    Jack   30     Jack  40
    Bill   40     A    50
     A    Nan      B   60
     B   Nan      C   70
     C    Nan     Bill  Nan

In [72]:
s1*s2

A             NaN
B             NaN
Bill          NaN
C             NaN
Jack Ma     188.0
小明          304.0
小王         6164.0
dtype: float64

In [73]:
s1/s2

A                NaN
B                NaN
Bill             NaN
C                NaN
Jack Ma    47.000000
小明          4.750000
小王          0.728261
dtype: float64

In [74]:
s1**s2

A                    NaN
B                    NaN
Bill                 NaN
C                    NaN
Jack Ma     8.836000e+03
小明          4.347792e+12
小王         9.974287e+167
dtype: float64

用函数计算

可以通过fill_value参数给该补nan自定义需要补的值

In [75]:
s1.add(s2,fill_value=0)

A           92.0
B           60.0
Bill        42.0
C            6.0
Jack Ma     96.0
小明          46.0
小王         159.0
dtype: float64

In [76]:
s1.multiply(s2,fill_value=1)

A            92.0
B            60.0
Bill         42.0
C             6.0
Jack Ma     188.0
小明          304.0
小王         6164.0
dtype: float64

推广：Series和数组之间运算

In [77]:
nd = np.random.randint(0,10,size=4)
nd

array([3, 2, 5, 8])

In [78]:
s1

小明         38
小王         67
Jack Ma    94
Bill       42
dtype: int32

In [79]:
s1+nd

小明         41
小王         69
Jack Ma    99
Bill       50
dtype: int32

Series和数组进行计算，本质就是series的values和数组进行计算

============================================

练习3：

1. 想一想Series运算和ndarray运算的规则有什么不同？

2. 新建另一个索引包含“文综”的Series s2，并与s2进行多种算术操作。思考如何保存所有数据。

============================================

### 2、DataFrame

DataFrame是一个【表格型】的数据结构，可以看做是【由Series组成的字典】（共用同一个索引）。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。
- 行索引：index
- 列索引：columns
- 值：values（numpy的二维数组）

In [80]:
from pandas import DataFrame

#### 1）DataFrame的创建
最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称，以字典的值（一个数组）作为每一列。

此外，DataFrame会自动加上每一行的索引（和Series一样）。

同Series一样，若传入的列与字典的键不匹配，则相应的值为NaN。


In [81]:
# 用字典创建DataFrame
df = DataFrame({
    "姓名":["鹿晗","达康书记","陈院长","Jack Ma","雷军"],
    "语文":[150,135,130,120,125],
    "数学":[125,136,128,150,129],
    "外语":[120,110,150,150,110],
    "综合":[100,90,236,120,145]
},index=list("abcde"),columns=["姓名","语文","数学","外语","综合"])
df

Unnamed: 0,姓名,语文,数学,外语,综合
a,鹿晗,150,125,120,100
b,达康书记,135,136,110,90
c,陈院长,130,128,150,236
d,Jack Ma,120,150,150,120
e,雷军,125,129,110,145


DataFrame属性：values、columns、index、shape

In [82]:
df.values

array([['鹿晗', 150, 125, 120, 100],
       ['达康书记', 135, 136, 110, 90],
       ['陈院长', 130, 128, 150, 236],
       ['Jack Ma', 120, 150, 150, 120],
       ['雷军', 125, 129, 110, 145]], dtype=object)

In [83]:
df.columns

Index(['姓名', '语文', '数学', '外语', '综合'], dtype='object')

In [84]:
df.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [85]:
df.columns[3] = "英语" # columns和index都是只读的

TypeError: Index does not support mutable operations

In [86]:
df.index[2] = "C"

TypeError: Index does not support mutable operations

In [87]:
df.index = list("ABCDE")

In [88]:
df.columns = ["name","Chinese","Math","English","综合"]

In [89]:
df

Unnamed: 0,name,Chinese,Math,English,综合
A,鹿晗,150,125,120,100
B,达康书记,135,136,110,90
C,陈院长,130,128,150,236
D,Jack Ma,120,150,150,120
E,雷军,125,129,110,145


讨论：由字典创建DataFrame是否创建副本？

In [90]:
dic = {"a":[1,2,4],"b":[45,6,7]}

In [91]:
df1 = DataFrame(dic)
df1

Unnamed: 0,a,b
0,1,45
1,2,6
2,4,7


In [92]:
dic["a"][0] = 1000
dic

{'a': [1000, 2, 4], 'b': [45, 6, 7]}

In [93]:
df1
# 由字典到DataFrame创建一个副本

Unnamed: 0,a,b
0,1,45
1,2,6
2,4,7


用数组来创建DataFrame

In [94]:
nd = np.random.randint(0,100,size=(4,4))
nd

array([[ 0, 62, 71, 86],
       [37, 77, 99, 26],
       [75,  0, 62, 40],
       [48, 89, 99, 32]])

In [95]:
df1 = DataFrame(nd,index=list("qwer"),columns=list("abcd"))
df1

Unnamed: 0,a,b,c,d
q,0,62,71,86
w,37,77,99,26
e,75,0,62,40
r,48,89,99,32


In [96]:
nd[0,0] = 1900

In [97]:
df1 # 由数组创建DataFrame没有产生副本

Unnamed: 0,a,b,c,d
q,1900,62,71,86
w,37,77,99,26
e,75,0,62,40
r,48,89,99,32


============================================

练习4：

根据以下考试成绩表，创建一个DataFrame，命名为df：
```
    张三  李四
语文 150  0
数学 150  0
英语 150  0
理综 300  0
```

============================================

#### 2）DataFrame的索引

(1) 对列进行索引

    - 通过类似字典的方式
    - 通过属性的方式

 可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引，且name属性也已经设置好了，就是相应的列名。

In [98]:
df

Unnamed: 0,name,Chinese,Math,English,综合
A,鹿晗,150,125,120,100
B,达康书记,135,136,110,90
C,陈院长,130,128,150,236
D,Jack Ma,120,150,150,120
E,雷军,125,129,110,145


In [99]:
df["name"]
# 索引某一列，用字典键值的形式进行索引
# 得到的值是一个Series以df的index为索引，以name属性对应的那些values为值，
# 以当前列索引为name

A         鹿晗
B       达康书记
C        陈院长
D    Jack Ma
E         雷军
Name: name, dtype: object

In [100]:
df.name

A         鹿晗
B       达康书记
C        陈院长
D    Jack Ma
E         雷军
Name: name, dtype: object

In [101]:
df.综合 # 用属性的形式来查找某一列

A    100
B     90
C    236
D    120
E    145
Name: 综合, dtype: int64

In [102]:
df[["name","English"]] # 如果用列表作为索引的话得到的是一个DataFrame

Unnamed: 0,name,English
A,鹿晗,120
B,达康书记,110
C,陈院长,150
D,Jack Ma,150
E,雷军,110


In [103]:
# 对列切片
df["name":"English"]
# DataFrame对列进行切片没有意义

Unnamed: 0,name,Chinese,Math,English,综合


In [104]:
df[0] # 列没有隐式索引

KeyError: 0

In [105]:
df[0:2] # 这里切的是行，而不是列

Unnamed: 0,name,Chinese,Math,English,综合
A,鹿晗,150,125,120,100
B,达康书记,135,136,110,90


列上面没有隐式索引，也不能进行切片

【注意】在索引列的时候，不推荐用属性的方式

(2) 对行进行索引

    - 使用.ix[]来进行行索引
    - 使用.loc[]加index来进行行索引
    - 使用.iloc[]加整数来进行行索引
    
 同样返回一个Series，index为原来的columns。

In [106]:
df

Unnamed: 0,name,Chinese,Math,English,综合
A,鹿晗,150,125,120,100
B,达康书记,135,136,110,90
C,陈院长,130,128,150,236
D,Jack Ma,120,150,150,120
E,雷军,125,129,110,145


In [107]:
df["A"] # 不能这样索引行

KeyError: 'A'

In [108]:
df.loc["A"]
# 索引某一行，得到的也是一个Series，以列标为index，以这一行上的值为values，
# 以这一行的显示索引为name

name        鹿晗
Chinese    150
Math       125
English    120
综合         100
Name: A, dtype: object

In [109]:
df.index = list("abbde")
df

Unnamed: 0,name,Chinese,Math,English,综合
a,鹿晗,150,125,120,100
b,达康书记,135,136,110,90
b,陈院长,130,128,150,236
d,Jack Ma,120,150,150,120
e,雷军,125,129,110,145


In [110]:
df.loc["b"] # 如果某个索引对应的是多行，将得到一个DataFrame

Unnamed: 0,name,Chinese,Math,English,综合
b,达康书记,135,136,110,90
b,陈院长,130,128,150,236


In [111]:
df.loc[["a","b"]] # 用列表来索引多行，得到一个DataFrame

Unnamed: 0,name,Chinese,Math,English,综合
a,鹿晗,150,125,120,100
b,达康书记,135,136,110,90
b,陈院长,130,128,150,236


In [112]:
df.iloc[0]

name        鹿晗
Chinese    150
Math       125
English    120
综合         100
Name: a, dtype: object

In [113]:
df.iloc[[0,1,2,1,0,0,0]]

Unnamed: 0,name,Chinese,Math,English,综合
a,鹿晗,150,125,120,100
b,达康书记,135,136,110,90
b,陈院长,130,128,150,236
b,达康书记,135,136,110,90
a,鹿晗,150,125,120,100
a,鹿晗,150,125,120,100
a,鹿晗,150,125,120,100


行切片

In [114]:
df.loc["a":"d"] 
# 【注意】如果有重复，重复的索引需要连续

Unnamed: 0,name,Chinese,Math,English,综合
a,鹿晗,150,125,120,100
b,达康书记,135,136,110,90
b,陈院长,130,128,150,236
d,Jack Ma,120,150,150,120


In [115]:
df.iloc[1:3] # 隐式切片切的是values

Unnamed: 0,name,Chinese,Math,English,综合
b,达康书记,135,136,110,90
b,陈院长,130,128,150,236


In [116]:
df[1:3] # 隐式切片可以写成这样

Unnamed: 0,name,Chinese,Math,English,综合
b,达康书记,135,136,110,90
b,陈院长,130,128,150,236


【注意】我们不能直接切列，可以通过loc和iloc去切列

In [117]:
df.iloc[:,1:3] # 这里实质上切的是values

Unnamed: 0,Chinese,Math
a,150,125
b,135,136
b,130,128
d,120,150
e,125,129


In [118]:
df.loc[:,"name":"Math"]

Unnamed: 0,name,Chinese,Math
a,鹿晗,150,125
b,达康书记,135,136
b,陈院长,130,128
d,Jack Ma,120,150
e,雷军,125,129


(3) 对元素索引的方法
    - 使用列索引
    - 使用行索引(iloc[3,1]相当于两个参数;iloc[[3,3]] 里面的[3,3]看做一个参数)
    - 使用values属性（二维numpy数组）

分两次查找

In [119]:
df.name.a

'鹿晗'

In [120]:
df["name"]["b"] # 先找列、再找行

b    达康书记
b     陈院长
Name: name, dtype: object

In [121]:
df.loc["a"]["name"] # 先找行，再找列

'鹿晗'

一次查找

In [122]:
df["name","a"] # 一次查找的时候，不能用查找列的方式来做

KeyError: ('name', 'a')

In [123]:
df.loc["a","name":"Chinese"]

name        鹿晗
Chinese    150
Name: a, dtype: object

In [124]:
df.loc[["a","b"],"name":"Chinese"]

Unnamed: 0,name,Chinese
a,鹿晗,150
b,达康书记,135
b,陈院长,130


In [125]:
df.loc["a":"b","name":"综合"]

Unnamed: 0,name,Chinese,Math,English,综合
a,鹿晗,150,125,120,100
b,达康书记,135,136,110,90
b,陈院长,130,128,150,236


In [126]:
df.iloc[0,"name"] 
# iloc直接查找values这个数组，name在脱离的df以后不能控制数组，所以不能用name

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

In [127]:
df.iloc[0,0] # 隐式索引操作是数组

'鹿晗'

In [128]:
df.iloc[0:3,1:3]

Unnamed: 0,Chinese,Math
a,150,125
b,135,136
b,130,128


【注意】
直接用中括号时：
- 索引表示的是列索引
- 切片表示的是行切片

============================================

练习5：

使用多种方法对ddd进行索引和切片，并比较其中的区别

============================================

#### 3）DataFrame的运算

（1） DataFrame之间的运算

同Series一样：

- 在运算中自动对齐不同索引的数据
- 如果索引不对应，则补NaN

创建DataFrame df1 不同人员的各科目成绩，月考一

In [129]:
df1 = DataFrame(np.random.randint(0,100,size=(4,4)),index=list("abcd"),
                columns=["java","python","ruby","go"])
df1

Unnamed: 0,java,python,ruby,go
a,88,30,52,93
b,33,16,14,77
c,47,86,38,1
d,27,20,79,36


创建DataFrame df2 不同人员的各科目成绩，月考二  
有新学生转入

In [130]:
df2 = DataFrame(np.random.randint(0,100,size=(4,4)),index=list("abce"),
                columns=["java","python","H5","线性代数"])
df2

Unnamed: 0,java,python,H5,线性代数
a,65,93,74,78
b,26,53,86,23
c,30,44,12,76
e,51,11,38,76


In [131]:
df1+df2

Unnamed: 0,H5,go,java,python,ruby,线性代数
a,,,153.0,123.0,,
b,,,59.0,69.0,,
c,,,77.0,130.0,,
d,,,,,,
e,,,,,,


In [132]:
df1.add(df2,fill_value=0,axis=0)

Unnamed: 0,H5,go,java,python,ruby,线性代数
a,74.0,93.0,153.0,123.0,52.0,78.0
b,86.0,77.0,59.0,69.0,14.0,23.0
c,12.0,1.0,77.0,130.0,38.0,76.0
d,,36.0,27.0,20.0,79.0,
e,38.0,,51.0,11.0,,76.0


	java	python	ruby	go
a	87	    32	   99	  22
b	45	    24	   88	  2
c	31	    55	   34	  73
d	9	    94	   49	  87
e   0     0     0     0

   java	python	H5	线性代数 ruby
a	46	  52	 60 	2     0
b	99	  22	 71	   81    0
c	96	  47	 70	   65    0
e	64	  57	 21	   59    0
d  0    0     0    0     nan

下面是Python 操作符与pandas操作函数的对应表：

| Python Operator | Pandas Method(s)                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |


（2） Series与DataFrame之间的运算

【重要】

- 使用Python操作符：以行为单位操作（参数必须是行），对所有行都有效。（类似于numpy中二维数组与一维数组的运算，但可能出现NaN）

- 使用pandas操作函数：

        axis=0：以列为单位操作（参数必须是列），对所有列都有效。
        axis=1：以行为单位操作（参数必须是行），对所有行都有效。

In [133]:
np.random.randint(1,8)

7

============================================

练习6：

1. 假设ddd是期中考试成绩，ddd2是期末考试成绩，请自由创建ddd2，并将其与ddd相加，求期中期末平均值。

2. 假设张三期中考试数学被发现作弊，要记为0分，如何实现？

3. 李四因为举报张三作弊立功，期中考试所有科目加100分，如何实现？

4. 后来老师发现有一道题出错了，为了安抚学生情绪，给每位学生每个科目都加10分，如何实现？

============================================