# Python-Pandas
## 对象的创建
- 导入Pandas时，通常给其一个别名“pd”，即import pandas as pd；

- 作为标签库，Pandas对象在Numpy数组基础之上给予行列标签，可以说，列表之于字典，就如Numpy之于Pandas；

- Pandas中，所有数组特性仍在，Pandas的数据以Numpy数组的方式存储。

### 一维对象的创建
#### 字典创建法
Numpy中，可以通过np.array()函数，将Python列表转化为Numpy数组；同样，Pandas中，可以通过pd.Series()函数，将Python字典转化为Series对象。

In [1]:
import pandas as pd
# 创建字典
dict_v = {'a':0, 'b':0.25, 'c':0.5, 'd':0.75, 'e':1}
# 用字典创建对象
sr = pd.Series(dict_v)
sr

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

#### 数组创建法
最直接的创建方法即直接给pd.Series()函数参数，其需要两个参数。第一个参数是值values（列表，数组，张量均可），第二个参数是件index（索引）。

In [8]:
import numpy as np
import torch
# 先定义键与值
v1 = [0, 0.25, 0.5, 0.75, 1]
v2 = np.array([0, 0.25, 0.5, 0.75, 1])
v3 = torch.tensor([0, 0.25, 0.5, 0.75, 1])
k = ['a', 'b', 'c', 'd', 'e']
# 用列表创建对象
sr = pd.Series(v1, index=k)
sr # 可以发现tensor的浮点数格式为float32

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

### 一维对象的属性
Series对象有两个属性：values与index。

In [17]:
# 用列表创建sr
v1 = [53, 64, 72, 82]
v2 = torch.tensor(v1)
k = ['1号', '2号', '3号', '4号']
sr = pd.Series(v1, index=k)
print(sr)
print(sr.values)
print(sr.index)

1号    53
2号    64
3号    72
4号    82
dtype: int64
[53 64 72 82]
Index(['1号', '2号', '3号', '4号'], dtype='object')


由结果知道，无论用列表，数组还是张量，得到的Series.values都是Numpy数组，说明Pandas是建立在Numpy基础上的库。
### 二维对象的创建
#### 字典创建法
用字典创建二维对象时，必须基于多个Series对象，每一个Series对象就是一列数据，相当于对一列一列的数据作拼接。
- 创建Series对象时，字典的键是index，其延展方向是竖直方向；
- 创建DataFrame对象时，字典的键是columns，其延展方向是水平方向。

In [25]:
# 创建sr1和sr2
v1 = [53, 64, 72, 82]
v2 = ['女', '男', '男', '女']
i = ['1号', '2号', '3号', '4号']
sr1 = pd.Series(v1, index=i)
sr2 = pd.Series(v2, index=i)
print(sr1)
print(sr2)

# 创建df对象
df = pd.DataFrame({'年龄':sr1, '性别':sr2})
df

1号    53
2号    64
3号    72
4号    82
dtype: int64
1号    女
2号    男
3号    男
4号    女
dtype: object


Unnamed: 0,年龄,性别
1号,53,女
2号,64,男
3号,72,男
4号,82,女


#### 数组创建法
最直接的创建方法即直接给pd.DataFrame函数参数，其需要三个参数。第一个参数是值values（数组），第二个参数是行标签index，第三个参数是列标签columns。其中，index和columns参数可以省略，省略后即从0开始的顺序数字。

In [30]:
# 设定键值
v = np.array([[53, '女'], [64, '男'], [72, '男'], [82, '女']])
i = ['1号', '2号', '3号', '4号']
c = ['年龄', '性别']
# 数组创建法
df = pd.DataFrame(v, index=i, columns=c)
df

Unnamed: 0,年龄,性别
1号,53,女
2号,64,男
3号,72,男
4号,82,女


这里我们发现一个问题，我们说 Numpy 数组只能容纳一种变量类型，但是上面代码块中 Numpy 数组居然又含数字又含字符串，这里的原理是数组默默把数字转成了字符串，于是 v 是一个字符串型数组。

### 二维对象的属性
DataFrame对象有三个属性：values，index 和 columns。

In [32]:
# 设定键值
v = np.array([[53, '女'], [64, '男'], [72, '男'], [82, '女']])
i = ['1号', '2号', '3号', '4号']
c = ['年龄', '性别']
# 数组创建法
df = pd.DataFrame(v, index=i, columns=c)
df.values, df.index, df.columns

(array([['53', '女'],
        ['64', '男'],
        ['72', '男'],
        ['82', '女']], dtype=object),
 Index(['1号', '2号', '3号', '4号'], dtype='object'),
 Index(['年龄', '性别'], dtype='object'))

当想要 Pandas 退化为 NumPy 数组时，查看其 values 属性即可。

In [34]:
# 提取完整的数组
arr = df.values
print(arr)

# 提取第[0]列，并转化为一个整数型数组
arr = arr[:, 0].astype(int)
print(arr)

[['53' '女']
 ['64' '男']
 ['72' '男']
 ['82' '女']]
[53 64 72 82]


## 对象的索引
在学习 Pandas 的索引之前，需要知道：
- **Pandas 的索引分为显式索引和隐式索引**。显式索引是使用 Pandas 对象提供的索引，而隐式索引是使用数组本身自带的从 0 开始的索引。
- 现假设某演示代码中的索引是整数，这个时候显式索引和隐式索引可能会出乱子。于是 Pandas 作者发明了**索引器 loc（显式）与 iloc（隐式）**，手动告诉程序自己这句话是显式还是隐式。
- 本章示例中，若代码块出现两栏，则**左侧为显式索引，右侧为隐式索引**，左右两列属于平行关系，任选其一即可。

### 一维对象的索引
#### 访问元素

In [45]:
v = [53, 64, 72, 82]
k = ['1号', '2号', '3号', '4号']
sr = pd.Series(v, index=k)
# 显式索引
print(sr.loc['3号']) 
print(sr.loc[['1号', '3号']])
# 隐式索引
print(sr.iloc[2])
print(sr.iloc[[0, 2]])

72
1号    53
3号    72
dtype: int64
72
1号    53
3号    72
dtype: int64


#### 访问切片
使用显式索引时，'1号' : '3号' 可以涵盖最后一个 '3号'，但隐式与之前一样。

In [48]:
v = [53, 64, 72, 82]
k = ['1号', '2号', '3号', '4号']
sr = pd.Series(v, index=k)
# 访问切片
cut = sr.loc['1号':'3号']
print(cut)
# 切片仅是视图
cut.loc['1号'] = 100
print(sr)
# 对象赋值仅是绑定
cut = sr
cut.loc['3号'] = 200
print(sr)

1号    53
2号    64
3号    72
dtype: int64
1号    100
2号     64
3号     72
4号     82
dtype: int64
1号    100
2号     64
3号    200
4号     82
dtype: int64


如果去掉 loc() 和 iloc()，此时与 NumPy 中的索引语法完全一致。
### 二维对象的索引
在二维对象中，索引器不能去掉，否则会报错。

In [54]:
# 访问元素，以显式索引为例
v1 = [53, 64, 72, 82]
v2 = ['女', '男', '男', '女']
i = ['1号', '2号', '3号', '4号']
sr1 = pd.Series(v1, index=i)
sr2 = pd.Series(v2, index=i)
df = pd.DataFrame({'年龄':sr1, '性别':sr2})
# 访问元素
print(df.loc['1号', '年龄'])
# 花式索引
print(df.loc[['1号', '3号'], ['性别', '年龄']])
# 修改元素
df.loc['3号', '年龄'] = 100
df

53
   性别  年龄
1号  女  53
3号  男  72


Unnamed: 0,年龄,性别
1号,53,女
2号,64,男
3号,100,男
4号,82,女


In [57]:
# 访问切片，以隐式索引为例
v = [[53, '女'], [64, '男'], [72, '男'], [82, '女']]
i = ['1号', '2号', '3号', '4号']
c = ['年龄', '性别']
df = pd.DataFrame(v, index=i, columns=c)
print(df)
# 切片
print(df.iloc[0:3, 0])
# 提取二维对象的行
print(df.iloc[2,:])
# 提取矩阵对象的列
print(df.iloc[:,0])

    年龄 性别
1号  53  女
2号  64  男
3号  72  男
4号  82  女
1号    53
2号    64
3号    72
Name: 年龄, dtype: int64
年龄    72
性别     男
Name: 3号, dtype: object
1号    53
2号    64
3号    72
4号    82
Name: 年龄, dtype: int64


在显式索引中，提取矩阵的行或列还有一种简便写法：
- 提取二维对象的行：df.loc['3号']（原理是省略后面的冒号，隐式也可以）
- 提取二维对象的列：df['年龄']（原理是列标签本身就是二维对象的键）
## 对象的变形
### 对象的转置
有时候提供的大数据很畸形，行是特征，列是个体，这必须要先进行转置。

In [60]:
# 创建畸形df
v = [[53, 64, 72, 82], ['女', '男', '男', '女']]
c = ['1号', '2号', '3号', '4号']
i = ['年龄', '性别']
df = pd.DataFrame(v, index=i, columns=c)
print(df)
# 转置
df = df.T
df

    1号  2号  3号  4号
年龄  53  64  72  82
性别   女   男   男   女


Unnamed: 0,年龄,性别
1号,53,女
2号,64,男
3号,72,男
4号,82,女


### 对象的翻转
紧接上面的例子，对 Pandas 对象进行左右翻转与上下翻转。

In [65]:
v = [[53, '女'], [64, '男'], [72, '男'], [82, '女']]
i = ['1号', '2号', '3号', '4号']
c = ['年龄', '性别']
df = pd.DataFrame(v, index=i, columns=c)
print(df)
# 左右翻转
df = df.iloc[:, ::-1] # 采样间隔是-1，相当于倒着采样
print(df)
# 上下翻转
df = df.iloc[::-1, :]
print(df)

    年龄 性别
1号  53  女
2号  64  男
3号  72  男
4号  82  女
   性别  年龄
1号  女  53
2号  男  64
3号  男  72
4号  女  82
   性别  年龄
4号  女  82
3号  男  72
2号  男  64
1号  女  53


### 对象的重塑
考虑到对象是含有行列标签的，reshape() 方法不再适用，因此对象的重塑没有那么灵活。但可以做到将 sr 并入 df，也可以将 df 割出 sr。

In [69]:
i = ['1号', '2号', '3号', '4号']
v1 = [10, 20, 30, 40]
v2 = ['女', '男', '男', '女']
v3 = [1, 2, 3, 4]
sr1 = pd.Series(v1, index=i)
sr2 = pd.Series(v2, index=i)
sr3 = pd.Series(v3, index=i)
print(sr1)
print(sr2)
print(sr3)
df = pd.DataFrame({'年龄':sr1, '性别':sr2})
# 把sr并入df中
df['牌照'] = sr3
print(df)
# 把df['年龄']分离成sr4
sr4 = df['年龄']
print(sr4)

1号    10
2号    20
3号    30
4号    40
dtype: int64
1号    女
2号    男
3号    男
4号    女
dtype: object
1号    1
2号    2
3号    3
4号    4
dtype: int64
    年龄 性别  牌照
1号  10  女   1
2号  20  男   2
3号  30  男   3
4号  40  女   4
1号    10
2号    20
3号    30
4号    40
Name: 年龄, dtype: int64


### 对象的拼接
Pandas 中有一个 pd.concat() 函数，与 np.concatenate() 函数语法相似。
#### 一维对象的合并

In [73]:
v1 = [10, 20, 30, 40]
v2 = [40, 50, 60]
k1 = ['1号', '2号', '3号', '4号']
k2 = ['4号', '5号', '6号']
sr1 = pd.Series(v1, index=k1)
sr2 = pd.Series(v2, index=k2)
print(sr1)
print(sr2)
# 合并
sr3 = pd.concat([sr1, sr2])
print(sr3)
# 检查index是否有重复
print(sr3.index.is_unique)

1号    10
2号    20
3号    30
4号    40
dtype: int64
4号    40
5号    50
6号    60
dtype: int64
1号    10
2号    20
3号    30
4号    40
4号    40
5号    50
6号    60
dtype: int64
False


#### 一维对象与二维对象的合并
一维对象与二维对象的合并可以理解为：给二维对象加上一列或者一行。因此不必使用 pd.concat() 函数，只需借助“二维对象的索引”语法。

In [78]:
v1 = [10, 20, 30]
v2 = ['女', '男', '男']
sr1 = pd.Series(v1, index=['1号', '2号', '3号'])
sr2 = pd.Series(v2, index=['1号', '2号', '3号'])
print(sr1)
print(sr2)
df = pd.DataFrame({'年龄':sr1, '性别':sr2})
print(df)
# 加上一列
df['牌照'] = [1, 2, 3]
# 加上一行
df.loc['4号'] = [40, '女', 4]
df

1号    10
2号    20
3号    30
dtype: int64
1号    女
2号    男
3号    男
dtype: object
    年龄 性别
1号  10  女
2号  20  男
3号  30  男


Unnamed: 0,年龄,性别,牌照
1号,10,女,1
2号,20,男,2
3号,30,男,3
4号,40,女,4


#### 二维对象的合并
二维对象合并仍然用 pd.concat() 函数，不过多了一个 axis 参数。

In [80]:
v1 = [[10, '女'], [20, '男'], [30, '男'], [40, '女']]
v2 = [[1, '是'], [2, '是'], [3, '是'], [4, '否']]
v3 = [[50, '男', 5, '是'], [60, '女', 6, '是']]
i1 = ['1号', '2号', '3号', '4号']
i2 = ['1号', '2号', '3号', '4号']
i3 = ['5号', '6号']
c1 = ['年龄', '性别']
c2 = ['牌照', 'ikun']
c3 = ['年龄', '性别', '牌照', 'ikun']
df1 = pd.DataFrame(v1, index=i1, columns=c1)
df2 = pd.DataFrame(v2, index=i2, columns=c2)
df3 = pd.DataFrame(v3, index=i3, columns=c3)
# 合并列对象
df = pd.concat([df1, df2], axis=1)
print(df)
# 合并行对象
df = pd.concat([df, df3], axis=0)
print(df)

    年龄 性别  牌照 ikun
1号  10  女   1    是
2号  20  男   2    是
3号  30  男   3    是
4号  40  女   4    否
    年龄 性别  牌照 ikun
1号  10  女   1    是
2号  20  男   2    是
3号  30  男   3    是
4号  40  女   4    否
5号  50  男   5    是
6号  60  女   6    是
