### Pandas标签库学习 [Python深度学习：Pandas标签库](https://www.bilibili.com/video/BV1hP41197we/?share_source=copy_web&vd_source=43c4eb4ed8da935694eaeb473fd0f6cb)

In [2]:
import pandas as pd
import numpy as np

#### 一、对象的创建

##### 1. pandas中用series的方式将字典转换为数据，也可以直接定义键与值，值可以是列表、数组、张量

In [8]:
l_v = [1, 2, 3]
print(l_v)
print(pd.Series(np.array(l_v))) # 默认的键是0,1,2,3,4....
j_v = ['a', 'b', 'c']
p_v = pd.Series(np.array(l_v), index=j_v) # 自定义键
print(p_v) 
print(p_v.index) # 查看索引
print(p_v.values, type(p_v.values)) # 查看值,类型是ndarray，即pandas库基于numpy

[1, 2, 3]
0    1
1    2
2    3
dtype: int32
a    1
b    2
c    3
dtype: int32
Index(['a', 'b', 'c'], dtype='object')
[1 2 3] <class 'numpy.ndarray'>


##### 2. 二维对象的创建，相当于一列一列的数据拼接

In [None]:
p_v2 = pd.Series({'x': 1, 'y': 2, 'a': 3})
print(p_v2)
p_vv = pd.DataFrame({'cs1': p_v, 'cs2': p_v2})
print(p_vv) # 直接拼接，取并集，缺失值为NaN
v = np.array([[24, 21, 32], ['男', '女', '男']]).T # v是一个二维数组，元素类型是str
print(v)
print(pd.DataFrame(v,index = ['a', 'b', 'c'], columns=['年龄','性别'])) # 参数分别是值，行索引和列索引

x    1
y    2
a    3
dtype: int64
   cs1  cs2
a  1.0  3.0
b  2.0  NaN
c  3.0  NaN
x  NaN  1.0
y  NaN  2.0
[['24' '男']
 ['21' '女']
 ['32' '男']]
   年龄 性别
a  24  男
b  21  女
c  32  男


#### 二、对象的索引

##### 1. pandas索引分为显式索引和隐式索引,隐式索引即默认从0开始的整数索引，显式索引即用户自定义的索引

In [29]:
v = [24, 21, 32]
k = ['男', '女', '男']
sr = pd.Series(v, index=k) # 直接用列表创建Series
print(sr)
print(sr['女']) # 显式索引
print(sr[0]) # 隐式索引
print(sr['男']) # 显式索引
print(sr[0:2]) # 切片索引，包含0，不包含2
print(sr[[0,2]]) # 花式索引
## 如果自定义索引和隐式索引重合，可以使用索引器
print(sr.loc['男']) # 显式索引器
print(sr.iloc[0]) # 隐式索引器

男    24
女    21
男    32
dtype: int64
21
24
男    24
男    32
dtype: int64
男    24
女    21
dtype: int64
男    24
男    32
dtype: int64
男    24
男    32
dtype: int64
24


##### 2. 索引也是一个引用

In [None]:
sr_t = sr[0:2] # 切片索引，包含0，不包含2
print(sr_t) # 结果是一个新的Series对象
sr_t[0] = 100 # 修改sr_t的值
print(sr_t) # sr_t的值已经改变了

男    24
女    21
dtype: int64
男    100
女     21
dtype: int64


##### 3. 多维pandas对象在访问时必需使用索引器

In [None]:
v = np.array([[24, 21, 32], ['男', '女', '男']]).T # v是一个二维数组，元素类型是str
df = pd.DataFrame(v,index = ['a', 'b', 'c'], columns=['年龄','性别']) # 参数分别是值，行索引和列索引
print(df)
print(df.loc['a', :]) # 显式索引器，返回行索引为'a'的行
print(df.iloc[0, :]) # 隐式索引器，返回第一行
print(df.iloc[0, :]) # 隐式索引器，返回第一行
print(df.iloc[0]) # 隐式索引器，返回第一行
print(df.loc['a', '性别']) # 显式索引器，返回行索引为'a'，列索引为'性别'的值

   年龄 性别
a  24  男
b  21  女
c  32  男
年龄    24
性别     男
Name: a, dtype: object
年龄    24
性别     男
Name: a, dtype: object
男


#### 三、对象的变形

##### 1. 转置与翻转

In [38]:
v = np.array([[24, 21, 32], ['男', '女', '男']]).T # v是一个二维数组，元素类型是str
df = (pd.DataFrame(v,index = ['a', 'b', 'c'], columns=['年龄','性别'])).T # 参数分别是值，行索引和列索引
print(df)
print(df.T) # 转置
# 左右翻转
print(df.iloc[:, ::-1]) # 左右翻转
# 上下翻转
print(df.iloc[::-1, :]) # 上下翻转

     a   b   c
年龄  24  21  32
性别   男   女   男
   年龄 性别
a  24  男
b  21  女
c  32  男
     c   b   a
年龄  32  21  24
性别   男   女   男
     a   b   c
性别   男   女   男
年龄  24  21  32


##### 2. 对象的拼接

In [None]:
#  数组法创建 sr
i = [ '1 号', '2 号', '3 号', '4 号' ] 
v1 = [ 10, 20, 30, 40 ]
v2 = [ '女', '男', '男', '女' ] 
v3 = [ 1, 2, 3, 4 ]
sr1 = pd.Series( v1, index=i )
sr2 = pd.Series( v2, index=i )
sr3 = pd.Series( v3, index=i ) 
#   字典法创建 df
df = pd.DataFrame( { '年龄':sr1, '性别':sr2 } ) 
print(df)
#  把 df['年龄']分离成 sr4 
sr4 = df['年龄']
print(sr4) # 结果是一个Series对象

     年龄 性别
1 号  10  女
2 号  20  男
3 号  30  男
4 号  40  女


##### 3. 对象的合并

In [None]:
v1 = [10, 20, 30, 40]
v2 = [40, 50, 60]
k1 = [ '1 号', '2 号', '3 号', '4 号' ] 
k2 = [ '4 号', '5 号', '6 号' ]
sr1 = pd.Series( v1, index= k1 )
sr2 = pd.Series( v2, index= k2 )
print(pd.concat([sr1, sr2])) # Pandas 对象的 属性，放弃了集合与字典索引中“不可重复 ”的特性

v1 = [ 10, 20, 30]
v2 = [ '女', '男', '男']
sr1 = pd.Series( v1, index=[ '1 号', '2 号', '3 号'] )
sr2 = pd.Series( v2, index=[ '1 号', '2 号', '3 号'] ) 
df = pd.DataFrame( { '年龄':sr1, '性别':sr2 } ) 
print(df)
df[ '牌照'] = [1, 2, 3] # 添加新列
print(df) 
df.loc[ '4 号'] = [40, '女', 4]
print(df) # 添加新行

# 二维对象合并
v1 = [ [10, '女'], [20, '男'], [30, '男'], [40, '女'] ] 
v2 = [ [1, '是'], [2, '是'], [3, '是'], [4, '否'] ]
v3 = [ [50, '男', 5, '是'], [60, '女', 6, '是'] ] 
i1 = [ '1 号', '2 号', '3 号', '4 号' ]
i2 = [ '1 号', '2 号', '3 号', '4 号' ]
i3 = [ '5 号', '6 号' ]
c1 = [ '年龄', '性别' ]
c2 = [ '牌照', 'ikun' ]
c3 = [ '年龄', '性别', '牌照', 'ikun' ]
df1 = pd.DataFrame( v1, index=i1, columns=c1 )
df2 = pd.DataFrame( v2, index=i2, columns=c2 )
df3 = pd.DataFrame( v3, index=i3, columns=c3 )
print(df1)
print(df2)
print(df3)

1 号    10
2 号    20
3 号    30
4 号    40
4 号    40
5 号    50
6 号    60
dtype: int64
     年龄 性别
1 号  10  女
2 号  20  男
3 号  30  男
     年龄 性别  牌照
1 号  10  女   1
2 号  20  男   2
3 号  30  男   3
     年龄 性别  牌照
1 号  10  女   1
2 号  20  男   2
3 号  30  男   3
4 号  40  女   4
     年龄 性别
1 号  10  女
2 号  20  男
3 号  30  男
4 号  40  女
     牌照 ikun
1 号   1    是
2 号   2    是
3 号   3    是
4 号   4    否
     年龄 性别  牌照 ikun
5 号  50  男   5    是
6 号  60  女   6    是


#### 四、对象的运算

##### 1. 对象与系数之间的运算

In [7]:
sr = pd.Series( [ 53, 64, 72 ] , index=['1 号', '2 号', '3 号'] )
print(sr)
v= [ [53, '女'], [64, '男'], [72, '男'] ]
df = pd.DataFrame( v, index=[ '1 号', '2 号', '3 号' ], columns=[ '年龄', '性别' ] )
print(df)
print(sr+10)
print(sr*10)
df['年龄']  =  df['年龄'] + 10
print(df)
print(df*3)

1 号    53
2 号    64
3 号    72
dtype: int64
     年龄 性别
1 号  53  女
2 号  64  男
3 号  72  男
1 号    63
2 号    74
3 号    82
dtype: int64
1 号    530
2 号    640
3 号    720
dtype: int64
     年龄 性别
1 号  63  女
2 号  74  男
3 号  82  男
      年龄   性别
1 号  189  女女女
2 号  222  男男男
3 号  246  男男男


##### 2. 对象与对象之间的运算

In [None]:
v1 = [10, 20, 30, 40]
k1 = [ '1 号', '2 号', '3 号', '4 号' ] 
sr1 = pd.Series( v1, index= k1 )
print(sr1)
v2 = [1, 2, 3 ]
k2 = [ '1 号', '2 号', '3 号' ]
sr2 = pd.Series( v2, index= k2 )
print(sr2)
print(sr1 + sr2) # 结果是一个Series对象，索引是并集，缺失值为NaN
print(sr1 * sr2) # 结果是一个Series对象，索引是并集，缺失值为NaN

# 多维对象的运算

v1 = [ [10, '女'], [20, '男'], [30, '男'], [40, '女'] ] 
v2 = [ 1, 2 ,3, 6 ]
i1 = [ '1 号', '2 号', '3 号', '4 号' ];     
c1 = [ '年龄', '性别' ]
i2 = [ '1 号', '2 号', '3 号', '6 号' ];     
c2 = [ '牌照' ]   
df1 = pd.DataFrame( v1, index=i1, columns=c1 )
df2 = pd.DataFrame( v2, index=i2, columns=c2 ) 
print(df1)
print(df2)
df1[ '加法'] = df1['年龄'] + df2['牌照']
df1[ '减法'] = df1['年龄'] - df2['牌照']
df1[ '乘法'] = df1['年龄'] * df2[ '牌照']
df1[ '除法'] = df1['年龄'] / df2['牌照']    
df1[ '幂方'] = df1['年龄'] ** df2[ '牌照'] 
print(df1)
print(np.cos(df1['年龄'])) 
# 使用 np.abs()、np.cos()、np.exp()、np.log()   等数学函数时，会保留索引；
# Pandas 中仍然存在布尔型对象，用法与 NumPy 无异，会保留索引。


1 号    10
2 号    20
3 号    30
4 号    40
dtype: int64
1 号    1
2 号    2
3 号    3
dtype: int64
1 号    11.0
2 号    22.0
3 号    33.0
4 号     NaN
dtype: float64
1 号    10.0
2 号    40.0
3 号    90.0
4 号     NaN
dtype: float64
     年龄 性别
1 号  10  女
2 号  20  男
3 号  30  男
4 号  40  女
     牌照
1 号   1
2 号   2
3 号   3
6 号   6
     年龄 性别    加法    减法    乘法    除法       幂方
1 号  10  女  11.0   9.0  10.0  10.0     10.0
2 号  20  男  22.0  18.0  40.0  10.0    400.0
3 号  30  男  33.0  27.0  90.0  10.0  27000.0
4 号  40  女   NaN   NaN   NaN   NaN      NaN
1 号   -0.839072
2 号    0.408082
3 号    0.154251
4 号   -0.666938
Name: 年龄, dtype: float64


#### 五、对象的缺失值

##### 1. 判断缺失值

In [25]:
v = [ 53, None, 72, 82 ]
k = ['1 号', '2 号', '3 号', '4 号'] 
sr = pd.Series( v, index=k )
v = [ [None, 1], [64, None], [72, 3], [82, 4] ] 
i = [ '1 号', '2 号', '3 号', '4 号' ]
c = [ '年龄', '牌照' ]
df = pd.DataFrame( v, index=i, columns=c ) 
print(sr)
print(df)
print(sr.isnull()) # 判断是否为缺失值，返回布尔型对象  
print(df.isnull()) # 判断是否为缺失值，返回布尔型对象

1 号    53.0
2 号     NaN
3 号    72.0
4 号    82.0
dtype: float64
       年龄   牌照
1 号   NaN  1.0
2 号  64.0  NaN
3 号  72.0  3.0
4 号  82.0  4.0
1 号    False
2 号     True
3 号    False
4 号    False
dtype: bool
        年龄     牌照
1 号   True  False
2 号  False   True
3 号  False  False
4 号  False  False


##### 2. 删除缺失值

In [26]:
print(sr.dropna()) # 删除缺失值，返回一个新的Series对象
#  剔除 df 全是 NaN 的个体
df.loc['1 号','牌照'] = None
print(df.dropna(how='all'))

1 号    53.0
3 号    72.0
4 号    82.0
dtype: float64
       年龄   牌照
2 号  64.0  NaN
3 号  72.0  3.0
4 号  82.0  4.0


##### 3. 填补缺失值

In [27]:
print(sr.fillna(0)) # 用0填补缺失值，返回一个新的Series对象
print(sr.fillna(np.mean(sr))) # 用均值填补缺失值，返回一个新的Series对象
print(sr.fillna(method='ffill')) # 用前一个值填补缺失值，返回一个新的Series对象
print(sr.fillna(method='bfill')) # 用后一个值填补缺失值，返回一个新的Series对象
print(df.fillna(0)) # 用0填补缺失值，返回一个新的DataFrame对象

1 号    53.0
2 号     0.0
3 号    72.0
4 号    82.0
dtype: float64
1 号    53.0
2 号    69.0
3 号    72.0
4 号    82.0
dtype: float64
1 号    53.0
2 号    53.0
3 号    72.0
4 号    82.0
dtype: float64
1 号    53.0
2 号    72.0
3 号    72.0
4 号    82.0
dtype: float64
       年龄   牌照
1 号   0.0  0.0
2 号  64.0  0.0
3 号  72.0  3.0
4 号  82.0  4.0


#### 六、导入excel

In [31]:
df = pd.read_csv('resoures//Data.csv', index_col=0) 
print(df) # 读取csv文件，index_col=0表示第一列作为索引
arr = df.values # 转换为ndarray对象
print(arr) # 打印ndarray对象

     age gender  num kun
1号  10.0      女    1   是
2号  20.0      男    2   是
3号  30.0      男    3   是
4号  40.0      女    4   否
5号  50.0      男    5   是
6号  60.0      女    6   是
[[10.0 '女' 1 '是']
 [20.0 '男' 2 '是']
 [30.0 '男' 3 '是']
 [40.0 '女' 4 '否']
 [50.0 '男' 5 '是']
 [60.0 '女' 6 '是']]


#### 七、数据分析

In [None]:
pd.read_csv('resoures//行星数据.csv', index_col=0, encoding='gbk') # 读取csv文件，index_col=0表示第一列作为索引，encoding='gbk'表示编码格式为gbk    

Unnamed: 0,发现时间,发现数量,观测方法,行星质量,距地距离,轨道周期
0,1989,1,径向速度,11.680,40.57,83.8880
1,1992,3,脉冲星计时,,,25.2620
2,1992,3,脉冲星计时,,,66.5419
3,1994,3,脉冲星计时,,,98.2114
4,1995,1,径向速度,0.472,15.36,4.2308
...,...,...,...,...,...,...
1030,2014,1,凌日,,,2.4650
1031,2014,1,凌日,,,68.9584
1032,2014,1,凌日,,1056.00,1.7209
1033,2014,1,凌日,,,66.2620


##### 1. 聚合方法

In [42]:
df = pd. read_csv( 'resoures//行星数据.csv', index_col=0, encoding='gbk' ) # 读取csv文件，index_col=0表示第一列作为索引，encoding='gbk'表示编码格式为gbk
print(df.max()) # 显示最大值
print(df.min()) # 显示最小值
print(df.sum()) # 显示总和
df.head() # 显示前5行数据

df.describe()

发现时间        2014
发现数量           7
观测方法      轨道亮度调制
行星质量        25.0
距地距离      8500.0
轨道周期    730000.0
dtype: object
发现时间      1989
发现数量         1
观测方法        凌日
行星质量    0.0036
距地距离      1.35
轨道周期    0.0907
dtype: object
发现时间                                              2079388
发现数量                                                 1848
观测方法    径向速度脉冲星计时脉冲星计时脉冲星计时径向速度径向速度径向速度径向速度径向速度径向速度径向速...
行星质量                                           1353.37638
距地距离                                            213367.98
轨道周期                                         1986894.2555
dtype: object


Unnamed: 0,发现时间,发现数量,行星质量,距地距离,轨道周期
count,1035.0,1035.0,513.0,808.0,992.0
mean,2009.070531,1.785507,2.638161,264.069282,2002.917596
std,3.972567,1.240976,3.818617,733.116493,26014.728304
min,1989.0,1.0,0.0036,1.35,0.0907
25%,2007.0,1.0,0.229,32.56,5.442575
50%,2010.0,1.0,1.26,55.25,39.9795
75%,2012.0,2.0,3.04,178.5,526.005
max,2014.0,7.0,25.0,8500.0,730000.0


##### 2. 数据透视

In [44]:
df = pd. read_csv( 'resoures//泰坦尼克.csv', index_col=0)
print(df) # 读取csv文件，index_col=0表示第一列作为索引
print(df.pivot_table( '是否生还', index='性别')) # 透视表，行索引为性别，列索引为是否生还，值为计数
print(df.pivot_table( '是否生还', index='性别', columns='船舱等级')) # 透视表，行索引为性别，列索引为船舱等级，值为计数
#  三个特征：性别、船舱等级、年龄
age = pd.cut( df['年龄'], [0,18, 120] ) # 以 18 岁为分水岭
df.pivot_table( '是否生还', index= ['性别', age], columns='船舱等级') # 透视表，行索引为性别和年龄，列索引为船舱等级，值为计数

    性别    年龄 船舱等级       费用  是否生还
0    男  22.0   三等   7.2500     0
1    女  38.0   一等  71.2833     1
2    女  26.0   三等   7.9250     1
3    女  35.0   一等  53.1000     1
4    男  35.0   三等   8.0500     0
..  ..   ...  ...      ...   ...
886  男  27.0   二等  13.0000     0
887  女  19.0   一等  30.0000     1
888  女   NaN   三等  23.4500     0
889  男  26.0   一等  30.0000     1
890  男  32.0   三等   7.7500     0

[891 rows x 5 columns]
        是否生还
性别          
女   0.742038
男   0.188908
船舱等级        一等        三等        二等
性别                                
女     0.968085  0.500000  0.921053
男     0.368852  0.135447  0.157407


Unnamed: 0_level_0,船舱等级,一等,三等,二等
性别,年龄,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
女,"(0, 18]",0.909091,0.511628,1.0
女,"(18, 120]",0.972973,0.423729,0.9
男,"(0, 18]",0.8,0.215686,0.6
男,"(18, 120]",0.375,0.133663,0.071429
