### Pandas标签库学习 [Python深度学习：Pandas标签库](https://www.bilibili.com/video/BV1hP41197we/?share_source=copy_web&vd_source=43c4eb4ed8da935694eaeb473fd0f6cb)

In [1]:
import pandas as pd
import numpy as np

#### 一、对象的创建

##### 1. pandas中用series的方式将字典转换为数据，也可以直接定义键与值，值可以是列表、数组、张量

In [8]:
l_v = [1, 2, 3]
print(l_v)
print(pd.Series(np.array(l_v))) # 默认的键是0,1,2,3,4....
j_v = ['a', 'b', 'c']
p_v = pd.Series(np.array(l_v), index=j_v) # 自定义键
print(p_v) 
print(p_v.index) # 查看索引
print(p_v.values, type(p_v.values)) # 查看值,类型是ndarray，即pandas库基于numpy

[1, 2, 3]
0    1
1    2
2    3
dtype: int32
a    1
b    2
c    3
dtype: int32
Index(['a', 'b', 'c'], dtype='object')
[1 2 3] <class 'numpy.ndarray'>


##### 2. 二维对象的创建，相当于一列一列的数据拼接

In [None]:
p_v2 = pd.Series({'x': 1, 'y': 2, 'a': 3})
print(p_v2)
p_vv = pd.DataFrame({'cs1': p_v, 'cs2': p_v2})
print(p_vv) # 直接拼接，取并集，缺失值为NaN
v = np.array([[24, 21, 32], ['男', '女', '男']]).T # v是一个二维数组，元素类型是str
print(v)
print(pd.DataFrame(v,index = ['a', 'b', 'c'], columns=['年龄','性别'])) # 参数分别是值，行索引和列索引

x    1
y    2
a    3
dtype: int64
   cs1  cs2
a  1.0  3.0
b  2.0  NaN
c  3.0  NaN
x  NaN  1.0
y  NaN  2.0
[['24' '男']
 ['21' '女']
 ['32' '男']]
   年龄 性别
a  24  男
b  21  女
c  32  男


#### 二、对象的索引

##### 1. pandas索引分为显式索引和隐式索引,隐式索引即默认从0开始的整数索引，显式索引即用户自定义的索引

In [29]:
v = [24, 21, 32]
k = ['男', '女', '男']
sr = pd.Series(v, index=k) # 直接用列表创建Series
print(sr)
print(sr['女']) # 显式索引
print(sr[0]) # 隐式索引
print(sr['男']) # 显式索引
print(sr[0:2]) # 切片索引，包含0，不包含2
print(sr[[0,2]]) # 花式索引
## 如果自定义索引和隐式索引重合，可以使用索引器
print(sr.loc['男']) # 显式索引器
print(sr.iloc[0]) # 隐式索引器

男    24
女    21
男    32
dtype: int64
21
24
男    24
男    32
dtype: int64
男    24
女    21
dtype: int64
男    24
男    32
dtype: int64
男    24
男    32
dtype: int64
24


##### 2. 索引也是一个引用

In [None]:
sr_t = sr[0:2] # 切片索引，包含0，不包含2
print(sr_t) # 结果是一个新的Series对象
sr_t[0] = 100 # 修改sr_t的值
print(sr_t) # sr_t的值已经改变了

男    24
女    21
dtype: int64
男    100
女     21
dtype: int64


##### 3. 多维pandas对象在访问时必需使用索引器

In [None]:
v = np.array([[24, 21, 32], ['男', '女', '男']]).T # v是一个二维数组，元素类型是str
df = pd.DataFrame(v,index = ['a', 'b', 'c'], columns=['年龄','性别']) # 参数分别是值，行索引和列索引
print(df)
print(df.loc['a', :]) # 显式索引器，返回行索引为'a'的行
print(df.iloc[0, :]) # 隐式索引器，返回第一行
print(df.iloc[0, :]) # 隐式索引器，返回第一行
print(df.iloc[0]) # 隐式索引器，返回第一行
print(df.loc['a', '性别']) # 显式索引器，返回行索引为'a'，列索引为'性别'的值

   年龄 性别
a  24  男
b  21  女
c  32  男
年龄    24
性别     男
Name: a, dtype: object
年龄    24
性别     男
Name: a, dtype: object
男


#### 三、对象的变形

##### 1. 转置与翻转

In [38]:
v = np.array([[24, 21, 32], ['男', '女', '男']]).T # v是一个二维数组，元素类型是str
df = (pd.DataFrame(v,index = ['a', 'b', 'c'], columns=['年龄','性别'])).T # 参数分别是值，行索引和列索引
print(df)
print(df.T) # 转置
# 左右翻转
print(df.iloc[:, ::-1]) # 左右翻转
# 上下翻转
print(df.iloc[::-1, :]) # 上下翻转

     a   b   c
年龄  24  21  32
性别   男   女   男
   年龄 性别
a  24  男
b  21  女
c  32  男
     c   b   a
年龄  32  21  24
性别   男   女   男
     a   b   c
性别   男   女   男
年龄  24  21  32


##### 2. 对象的拼接

In [None]:
#  数组法创建 sr
i = [ '1 号', '2 号', '3 号', '4 号' ] 
v1 = [ 10, 20, 30, 40 ]
v2 = [ '女', '男', '男', '女' ] 
v3 = [ 1, 2, 3, 4 ]
sr1 = pd.Series( v1, index=i )
sr2 = pd.Series( v2, index=i )
sr3 = pd.Series( v3, index=i ) 
#   字典法创建 df
df = pd.DataFrame( { '年龄':sr1, '性别':sr2 } ) 
print(df)
#  把 df['年龄']分离成 sr4 
sr4 = df['年龄']
print(sr4) # 结果是一个Series对象

     年龄 性别
1 号  10  女
2 号  20  男
3 号  30  男
4 号  40  女


##### 3. 对象的合并

In [None]:
v1 = [10, 20, 30, 40]
v2 = [40, 50, 60]
k1 = [ '1 号', '2 号', '3 号', '4 号' ] 
k2 = [ '4 号', '5 号', '6 号' ]
sr1 = pd.Series( v1, index= k1 )
sr2 = pd.Series( v2, index= k2 )
print(pd.concat([sr1, sr2])) # Pandas 对象的 属性，放弃了集合与字典索引中“不可重复 ”的特性

v1 = [ 10, 20, 30]
v2 = [ '女', '男', '男']
sr1 = pd.Series( v1, index=[ '1 号', '2 号', '3 号'] )
sr2 = pd.Series( v2, index=[ '1 号', '2 号', '3 号'] ) 
df = pd.DataFrame( { '年龄':sr1, '性别':sr2 } ) 
print(df)
df[ '牌照'] = [1, 2, 3] # 添加新列
print(df) 
df.loc[ '4 号'] = [40, '女', 4]
print(df) # 添加新行

# 二维对象合并
v1 = [ [10, '女'], [20, '男'], [30, '男'], [40, '女'] ] 
v2 = [ [1, '是'], [2, '是'], [3, '是'], [4, '否'] ]
v3 = [ [50, '男', 5, '是'], [60, '女', 6, '是'] ] 
i1 = [ '1 号', '2 号', '3 号', '4 号' ]
i2 = [ '1 号', '2 号', '3 号', '4 号' ]
i3 = [ '5 号', '6 号' ]
c1 = [ '年龄', '性别' ]
c2 = [ '牌照', 'ikun' ]
c3 = [ '年龄', '性别', '牌照', 'ikun' ]
df1 = pd.DataFrame( v1, index=i1, columns=c1 )
df2 = pd.DataFrame( v2, index=i2, columns=c2 )
df3 = pd.DataFrame( v3, index=i3, columns=c3 )
print(df1)
print(df2)
print(df3)

1 号    10
2 号    20
3 号    30
4 号    40
4 号    40
5 号    50
6 号    60
dtype: int64
     年龄 性别
1 号  10  女
2 号  20  男
3 号  30  男
     年龄 性别  牌照
1 号  10  女   1
2 号  20  男   2
3 号  30  男   3
     年龄 性别  牌照
1 号  10  女   1
2 号  20  男   2
3 号  30  男   3
4 号  40  女   4
     年龄 性别
1 号  10  女
2 号  20  男
3 号  30  男
4 号  40  女
     牌照 ikun
1 号   1    是
2 号   2    是
3 号   3    是
4 号   4    否
     年龄 性别  牌照 ikun
5 号  50  男   5    是
6 号  60  女   6    是


#### 四、对象的运算

##### 1. 对象与系数之间的运算