# Pandas学习教程

**Author Github: @deeptrial**

2021-04-01

East China Normal University

In [1]:
import pandas as pd
import numpy as np
import math

def separate():
    print("--------------------------------")



## Pandas的数据结构

Pandas具有~~3~~ 2种数据结构，分别是Series（系列），DataFrame（数据帧），~~Panel（面板）~~。三种数据结构均建立在numpy基础上，因此具有较好的执行效率。这些数据结构的特点如下:

- Series表示1维均匀数组，数组尺寸**不可变**，数据值可变
- DataFrame表示2维异构数组，数组尺寸可变，数据值可变
- ~~Panel表示表示3维异构数组，数组尺寸可变，数据值可变~~ 新版本已使用MultiIndex代替Panel

因此三种数据结构间的关系是：Series可组成DataFrame，~~DataFrame可组成Panel~~

## 1 Series

Series是Pandas的主要数据结构之一，是带标签的一维数组。理论上数组内的值的类型必须是统一的，但由于不同类型的数据在python中都可作为object，所以这一问题常被忽视。

Series结构在存储时分为两个部分（如图所示）：
- values：一维数组数据
- index：数据索引标签

特点：**数据对齐是内在的**，标签与数据默认对齐，除非特殊情况，一般不会断开连接，因此通过索引取值非常方便，不需要循环，可以直接通过字典方式，key 获取value

<img src="https://pic1.zhimg.com/v2-3c3e48377d299270579be01f6d9fb79c_b.jpg" width = "150" height = "100" alt="Series结构" align=center />

### 创建Series

Pandas系列可以使用以下构造函数创建：

```python
pandas.Series( data, index, dtype, copy)
```
- data: 数据形式，可以是numpy array，list, dictionary， constant
- index：索引值，默认的隐式数字索引：np.arange(n)，下标从0开始
- dtype: 数据类型，默认将自动推断
- copy：表示是否复制数据，默认False

In [25]:
# 创建Series
s1=pd.Series([11,3.5,2,5,12])  #从list创建,这里没有给出index，因此使用隐式索引
print("from list:\n",s1)
separate()

s2=pd.Series('',index=['a','b','c','d',4])   #从constant创建，依据index长度创建值相同的数组
print("from constant:\n",s2)
separate()

s3=pd.Series({'a':1,'b':2,'c':3,'d':4,'e':4})   #从dict创建 key变为index，value是数组数据
print("from dict:\n",s3)
separate()

s4 = pd.Series(np.random.randint(1,10,size=(4,)),index=['a','b','c','d'])
print("from array:\n",s4)
separate()

from list:
 0    11.0
1     3.5
2     2.0
3     5.0
4    12.0
dtype: float64
--------------------------------
from constant:
 a    
b    
c    
d    
4    
dtype: object
--------------------------------
from dict:
 a    1
b    2
c    3
d    4
e    4
dtype: int64
--------------------------------
from array:
 a    8
b    1
c    6
d    3
dtype: int64
--------------------------------


### Series切片和索引

Series的索引和切片提供了访问、修改Series部分数据的功能。
- ##### **iloc** vs **loc**
 - iloc是通过隐式索引访问数据的操作，内部只能填写数字下标
 - loc是通过显式索引访问数据的操作，内部填写自定义的标签，可以是数字或字符串等

In [26]:
# 通过隐式索引访问数据
# 任何Series都可通过隐式索引访问数据
print("分别访问s1的第1行、第2行：",s1.iloc[1],s1.iloc[2])  #返回具体数值
print("同时访问s1的第1行、第2行：",s1.iloc[[1,2]])    # 返回Series切片
separate()

print("分别访问s3的第1行、第2行：",s3.iloc[1],s3.iloc[2])  #返回具体数值
print("同时访问s3的第1行、第2行：",s3.iloc[[1,2]])    # 返回Series切片
separate()


# 通过显式索引访问数据
# 对于自定义index的Series，可以直接通过指定index访问数据
# 对于没有自定义index的Series，可以直接指定index行号访问数据
print("分别访问s1的第1行、第2行：",s1[1],s1[2])  #返回具体数值
print("同时访问s1的第1行、第2行：",s1.loc[[1,2]])    # 返回Series切片
separate()

print("分别访问s3的第1行、第2行：",s3['b'],s3['c'])  #返回具体数值
print("同时访问s3的第1行、第2行：",s3.loc[['b','c']])    # 返回Series切片
separate()

分别访问s1的第1行、第2行： 3.5 2.0
同时访问s1的第1行、第2行： 1    3.5
2    2.0
dtype: float64
--------------------------------
分别访问s3的第1行、第2行： 2 3
同时访问s3的第1行、第2行： b    2
c    3
dtype: int64
--------------------------------
分别访问s1的第1行、第2行： 3.5 2.0
同时访问s1的第1行、第2行： 1    3.5
2    2.0
dtype: float64
--------------------------------
分别访问s3的第1行、第2行： 2 3
同时访问s3的第1行、第2行： b    2
c    3
dtype: int64
--------------------------------


### Series基本操作

Series的基本操作包括：
- #### 显式数据的头和尾

In [27]:
# 显式前n行
s1.head(2)

#显式末尾n行
#s1.tail(2)

0    11.0
1     3.5
dtype: float64

- #### 获取、修改index

Series数据结构在定义后无法改变数组的长度，但是可以修改index

In [19]:
#获取values，index
print(s4.values,s4.index)

#修改index
s4.index=['a','c','b','d']
print(s4)

[7 8 2 9] Index(['a', 'c', 'b', 'd'], dtype='object')
a    7
c    8
b    2
d    9
dtype: int64


- #### 显式统计信息

In [30]:
# 完整的统计信息
print(s1.describe())
separate()

# 显式指定信息
print("data type:",s1.dtype)
print("std:",s1.std())

count     5.000000
mean      6.700000
std       4.522168
min       2.000000
25%       3.500000
50%       5.000000
75%      11.000000
max      12.000000
dtype: float64
--------------------------------
data type: float64
std: 4.522167621838006


- #### 去重 unique

In [21]:
print(s3.unique()) 
print(s3)  #unique不会修改原始数据，且返回的是list结果

[1 2 3 4]
a    1
b    2
c    3
d    4
e    4
dtype: int64


- #### 判断缺失值
 - notnull()表示不为空返回True，为空返回False
 - isnull()表示不为空返回False，为空返回True

In [22]:
sp=pd.Series({'a':1,'b':2,'c':3,'d':4,'e':4},index=['a','b','c','d','f','p'])   #构造一个含有Nan的Series
print(sp)
separate()

print("isnull\n:",sp.isnull())
separate()

print("notnull\n:",sp.notnull())
separate()

print(sp[sp.notnull()]) #根据bool类型的Series访问数据，可提取非空数据或空数据

a    1.0
b    2.0
c    3.0
d    4.0
f    NaN
p    NaN
dtype: float64
--------------------------------
isnull
: a    False
b    False
c    False
d    False
f     True
p     True
dtype: bool
--------------------------------
notnull
: a     True
b     True
c     True
d     True
f    False
p    False
dtype: bool
--------------------------------
a    1.0
b    2.0
c    3.0
d    4.0
dtype: float64


- #### 标量运算

与标量的运算：

Pandas支持直接对Series进行运算，包括四则运算、条件判断、numpy内的函数运算

In [23]:
# 四则运算
print(s1+5)
print(s1*2)
print(s1/2)
print(s1-5)
separate()

# 条件判断
print(7 in s1)
print(s1>5)
separate()

# 函数运算
print(np.exp(s1)) #无法使用math计算 print(math.exp(s))
print(np.sqrt(s1))

0    16.0
1     8.5
2     7.0
3    10.0
4    17.0
dtype: float64
0    22.0
1     7.0
2     4.0
3    10.0
4    24.0
dtype: float64
0    5.50
1    1.75
2    1.00
3    2.50
4    6.00
dtype: float64
0    6.0
1   -1.5
2   -3.0
3    0.0
4    7.0
dtype: float64
--------------------------------
False
0     True
1    False
2    False
3    False
4     True
dtype: bool
--------------------------------
0     59874.141715
1        33.115452
2         7.389056
3       148.413159
4    162754.791419
dtype: float64
0    3.316625
1    1.870829
2    1.414214
3    2.236068
4    3.464102
dtype: float64


- #### Series的运算

Series与Series的运算包括四则运算、拼接

Series自生的运算包括删除、排序

In [24]:
#Series与Series运算
print("s3:\n",s3) 
separate()
print("s4:\n",s4)
separate()
print("s3+s4:\n",s3+s4) #支持四则运算，index相同的直接计算，无法匹配的保留并置为Nan
separate()


#Series与Series的拼接
s3=s3.append(pd.Series([8])) #添加的Series在没有指定index时，采用隐式index（0，1，2，...）
print("append:\n",s3)
separate()

#Series删除元素
#s3=s3.drop(0)          #drop中填写index，可以是隐式index，也可以是自定义的index
s3.drop(0,inplace=True) #inplace原地修改
print("del index 0:\n",s3)
separate()

#按照index大小排序
print(s4.sort_index(ascending = False))  #按照索引大小排序  不改变原始Series
print(s4.sort_values(ascending = False))  #按照值大小排序 

s3:
 a    1
b    2
c    3
d    4
e    4
dtype: int64
--------------------------------
s4:
 a    7
c    8
b    2
d    9
dtype: int64
--------------------------------
s3+s4:
 a     8.0
b     4.0
c    11.0
d    13.0
e     NaN
dtype: float64
--------------------------------
append:
 a    1
b    2
c    3
d    4
e    4
0    8
dtype: int64
--------------------------------
del index 0:
 a    1
b    2
c    3
d    4
e    4
dtype: int64
--------------------------------
d    9
c    8
b    2
a    7
dtype: int64
d    9
c    8
a    7
b    2
dtype: int64


## 2 DataFrame

<img src="https://pic1.zhimg.com/v2-b03baaccf0ca7ec26c97a979fc6540f0_b.jpg" width = "300" height = "250" alt="Series结构" align=center />

pandas中的DataFrame可以使用以下构造函数创建:
```python
pandas.DataFrame( data, index, columns, dtype, copy)
```
- data: 数据形式，可以是numpy array，list, map,dictionary， constant,dataframe
- index：行标签，默认np.arange(n)
- columns：列标签，默认np.arange(n)
- dtype: 数据类型，默认将自动推断
- copy：表示是否复制数据，默认False


In [130]:
# 创建DataFrame
df=pd.DataFrame([[1,'a'],[2,'b'],[3,'c'],[4,'d']],columns=['kk','dd'])
print(df)

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print(df)

#列选择
print('column select:',df['one'])
print(df[['one','two']])

# 添加列
df["three"]=[1,2,3,4]
df['four']=pd.Series([10,20,30],index=['a','b','c'])
print(df)

#列删除
del df['four']
print(df)

df.pop('one')
print(df)

#行选择
print('select row',df.loc['a'],df.loc[['a'],['three','two']],type(df.loc['a']))
print('select row-2',df.iloc[0],df.iloc[:,0],df.iloc[[0,2],0],type(df.iloc[0]))
print(df[0:3])

#行添加
addrow=pd.DataFrame([[5,5],[6,6]],columns=['two','three'],index=['e','f'])
df=df.append(addrow) #注意需要赋值
print(df)

#行删除
df=df.drop('a') #注意与pop的区别
print(df)

   kk dd
0   1  a
1   2  b
2   3  c
3   4  d
   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
column select: a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64
   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
   one  two  three  four
a  1.0    1      1  10.0
b  2.0    2      2  20.0
c  3.0    3      3  30.0
d  NaN    4      4   NaN
   one  two  three
a  1.0    1      1
b  2.0    2      2
c  3.0    3      3
d  NaN    4      4
   two  three
a    1      1
b    2      2
c    3      3
d    4      4
select row two      1
three    1
Name: a, dtype: int64    three  two
a      1    1 <class 'pandas.core.series.Series'>
select row-2 two      1
three    1
Name: a, dtype: int64 a    1
b    2
c    3
d    4
Name: two, dtype: int64 a    1
c    3
Name: two, dtype: int64 <class 'pandas.core.series.Series'>
   two  three
a    1      1
b    2      2
c    3      3
   two  three
a    1      1
b    2      2
c    3      3
d    4      4
e    5      5
f    6      6
   two  thre

In [131]:
# 查看属性
print(df.count(),df.dtypes,df.describe())   

two      5
three    5
dtype: int64 two      int64
three    int64
dtype: object             two     three
count  5.000000  5.000000
mean   4.000000  4.000000
std    1.581139  1.581139
min    2.000000  2.000000
25%    3.000000  3.000000
50%    4.000000  4.000000
75%    5.000000  5.000000
max    6.000000  6.000000


In [136]:
# 获取、修改index，columns
print(df.index,df.columns)
df.rename(columns={'two':'oo','three':'tt'},inplace=True)
df.index=np.arange(df.shape[0])
print(df)

#条件访问数据
choose= (df['oo']>=5)
print(df.loc[choose,:])

# 修改数据
df.loc[3,'oo']=10
df.iloc[3,1]=15
print(df)

Int64Index([0, 1, 2, 3, 4], dtype='int64') Index(['oo', 'tt'], dtype='object')
   oo  tt
0   2   2
1   3   3
2   4   4
3  10   5
4   6   6
   oo  tt
3  10   5
4   6   6
   oo  tt
0   2   2
1   3   3
2   4   4
3  10  15
4   6   6


## 3 ~~Panel~~ MultiIndex

Panel主要用于三维数据，但在实际中，高维数据常使用多层级索引MultiIndex表示，操作更加灵活，可以表示3维，甚至更高维的数据。因此在新版Pandas中，panel已被移除

In [147]:
p=pd.DataFrame(np.random.randint(50,100,size=(4,4)),columns=pd.MultiIndex.from_product([["math","physics"],["term1","term2"]]),index=pd.MultiIndex.from_tuples([("class1","LiLei"),("class1","HanMeimei"),("class2","DaChun"),("class2","RuHua")]))
print(p)

p.index.names=["class","names"]
print(p)

# MultiIndex索引
print(p["math"]["term1"])
print(p.loc["class1"])

                  math       physics      
                 term1 term2   term1 term2
class1 LiLei        68    67      83    73
       HanMeimei    76    83      70    97
class2 DaChun       84    95      55    72
       RuHua        81    75      55    56
                  math       physics      
                 term1 term2   term1 term2
class  names                              
class1 LiLei        68    67      83    73
       HanMeimei    76    83      70    97
class2 DaChun       84    95      55    72
       RuHua        81    75      55    56
class   names    
class1  LiLei        68
        HanMeimei    76
class2  DaChun       84
        RuHua        81
Name: term1, dtype: int32
           math       physics      
          term1 term2   term1 term2
names                              
LiLei        68    67      83    73
HanMeimei    76    83      70    97
