# Python-Pandas
## 对象的创建
- 导入Pandas时，通常给其一个别名“pd”，即import pandas as pd；

- 作为标签库，Pandas对象在Numpy数组基础之上给予行列标签，可以说，列表之于字典，就如Numpy之于Pandas；

- Pandas中，所有数组特性仍在，Pandas的数据以Numpy数组的方式存储。

### 一维对象的创建
#### 字典创建法
Numpy中，可以通过np.array()函数，将Python列表转化为Numpy数组；同样，Pandas中，可以通过pd.Series()函数，将Python字典转化为Series对象。

In [1]:
import pandas as pd
# 创建字典
dict_v = {'a':0, 'b':0.25, 'c':0.5, 'd':0.75, 'e':1}
# 用字典创建对象
sr = pd.Series(dict_v)
sr

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

#### 数组创建法
最直接的创建方法即直接给pd.Series()函数参数，其需要两个参数。第一个参数是值values（列表，数组，张量均可），第二个参数是件index（索引）。

In [8]:
import numpy as np
import torch
# 先定义键与值
v1 = [0, 0.25, 0.5, 0.75, 1]
v2 = np.array([0, 0.25, 0.5, 0.75, 1])
v3 = torch.tensor([0, 0.25, 0.5, 0.75, 1])
k = ['a', 'b', 'c', 'd', 'e']
# 用列表创建对象
sr = pd.Series(v1, index=k)
sr # 可以发现tensor的浮点数格式为float32

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

### 一维对象的属性
Series对象有两个属性：values与index。

In [17]:
# 用列表创建sr
v1 = [53, 64, 72, 82]
v2 = torch.tensor(v1)
k = ['1号', '2号', '3号', '4号']
sr = pd.Series(v1, index=k)
print(sr)
print(sr.values)
print(sr.index)

1号    53
2号    64
3号    72
4号    82
dtype: int64
[53 64 72 82]
Index(['1号', '2号', '3号', '4号'], dtype='object')


由结果知道，无论用列表，数组还是张量，得到的Series.values都是Numpy数组，说明Pandas是建立在Numpy基础上的库。
### 二维对象的创建
#### 字典创建法
用字典创建二维对象时，必须基于多个Series对象，每一个Series对象就是一列数据，相当于对一列一列的数据作拼接。
- 创建Series对象时，字典的键是index，其延展方向是竖直方向；
- 创建DataFrame对象时，字典的键是columns，其延展方向是水平方向。

In [25]:
# 创建sr1和sr2
v1 = [53, 64, 72, 82]
v2 = ['女', '男', '男', '女']
i = ['1号', '2号', '3号', '4号']
sr1 = pd.Series(v1, index=i)
sr2 = pd.Series(v2, index=i)
print(sr1)
print(sr2)

# 创建df对象
df = pd.DataFrame({'年龄':sr1, '性别':sr2})
df

1号    53
2号    64
3号    72
4号    82
dtype: int64
1号    女
2号    男
3号    男
4号    女
dtype: object


Unnamed: 0,年龄,性别
1号,53,女
2号,64,男
3号,72,男
4号,82,女


#### 数组创建法
最直接的创建方法即直接给pd.DataFrame函数参数，其需要三个参数。第一个参数是值values（数组），第二个参数是行标签index，第三个参数是列标签columns。其中，index和columns参数可以省略，省略后即从0开始的顺序数字。

In [30]:
# 设定键值
v = np.array([[53, '女'], [64, '男'], [72, '男'], [82, '女']])
i = ['1号', '2号', '3号', '4号']
c = ['年龄', '性别']
# 数组创建法
df = pd.DataFrame(v, index=i, columns=c)
df

Unnamed: 0,年龄,性别
1号,53,女
2号,64,男
3号,72,男
4号,82,女


这里我们发现一个问题，我们说 Numpy 数组只能容纳一种变量类型，但是上面代码块中 Numpy 数组居然又含数字又含字符串，这里的原理是数组默默把数字转成了字符串，于是 v 是一个字符串型数组。

### 二维对象的属性
DataFrame对象有三个属性：values，index 和 columns。

In [32]:
# 设定键值
v = np.array([[53, '女'], [64, '男'], [72, '男'], [82, '女']])
i = ['1号', '2号', '3号', '4号']
c = ['年龄', '性别']
# 数组创建法
df = pd.DataFrame(v, index=i, columns=c)
df.values, df.index, df.columns

(array([['53', '女'],
        ['64', '男'],
        ['72', '男'],
        ['82', '女']], dtype=object),
 Index(['1号', '2号', '3号', '4号'], dtype='object'),
 Index(['年龄', '性别'], dtype='object'))

当想要 Pandas 退化为 NumPy 数组时，查看其 values 属性即可。

In [34]:
# 提取完整的数组
arr = df.values
print(arr)

# 提取第[0]列，并转化为一个整数型数组
arr = arr[:, 0].astype(int)
print(arr)

[['53' '女']
 ['64' '男']
 ['72' '男']
 ['82' '女']]
[53 64 72 82]


## 对象的索引
在学习 Pandas 的索引之前，需要知道：
- **Pandas 的索引分为显式索引和隐式索引**。显式索引是使用 Pandas 对象提供的索引，而隐式索引是使用数组本身自带的从 0 开始的索引。
- 现假设某演示代码中的索引是整数，这个时候显式索引和隐式索引可能会出乱子。于是 Pandas 作者发明了**索引器 loc（显式）与 iloc（隐式）**，手动告诉程序自己这句话是显式还是隐式。
- 本章示例中，若代码块出现两栏，则**左侧为显式索引，右侧为隐式索引**，左右两列属于平行关系，任选其一即可。

### 一维对象的索引
#### 访问元素

In [45]:
v = [53, 64, 72, 82]
k = ['1号', '2号', '3号', '4号']
sr = pd.Series(v, index=k)
# 显式索引
print(sr.loc['3号']) 
print(sr.loc[['1号', '3号']])
# 隐式索引
print(sr.iloc[2])
print(sr.iloc[[0, 2]])

72
1号    53
3号    72
dtype: int64
72
1号    53
3号    72
dtype: int64


#### 访问切片
使用显式索引时，'1号' : '3号' 可以涵盖最后一个 '3号'，但隐式与之前一样。

In [48]:
v = [53, 64, 72, 82]
k = ['1号', '2号', '3号', '4号']
sr = pd.Series(v, index=k)
# 访问切片
cut = sr.loc['1号':'3号']
print(cut)
# 切片仅是视图
cut.loc['1号'] = 100
print(sr)
# 对象赋值仅是绑定
cut = sr
cut.loc['3号'] = 200
print(sr)

1号    53
2号    64
3号    72
dtype: int64
1号    100
2号     64
3号     72
4号     82
dtype: int64
1号    100
2号     64
3号    200
4号     82
dtype: int64


如果去掉 loc() 和 iloc()，此时与 NumPy 中的索引语法完全一致。
### 二维对象索引
在二维对象中，索引器不能去掉，否则会报错。
#### 访问元素


In [54]:
# 显式索引为例
v1 = [53, 64, 72, 82]
v2 = ['女', '男', '男', '女']
i = ['1号', '2号', '3号', '4号']
sr1 = pd.Series(v1, index=i)
sr2 = pd.Series(v2, index=i)
df = pd.DataFrame({'年龄':sr1, '性别':sr2})
# 访问元素
print(df.loc['1号', '年龄'])
# 花式索引
print(df.loc[['1号', '3号'], ['性别', '年龄']])
# 修改元素
df.loc['3号', '年龄'] = 100
df

53
   性别  年龄
1号  女  53
3号  男  72


Unnamed: 0,年龄,性别
1号,53,女
2号,64,男
3号,100,男
4号,82,女


In [55]:
# 访问切片
v = [[53, '女'], [64, '男'], [72, '男'], [82, '女']]
i = ['1号', '2号', '3号', '4号']
c = ['年龄', '性别']
# 数组创建法
df = pd.DataFrame(v, index=i, columns=c)
df

Unnamed: 0,年龄,性别
1号,53,女
2号,64,男
3号,72,男
4号,82,女
