# Pandas
Pandas库基于Numpy库，提供了很多用于数据操作与分析的功能。

## 安装与使用
安装：  
`pip install pandas`  
根据惯例，我们使用如下的方式引入pandas：  
`import pandas as pd`

## 两个常用数据类型
pandas提供两个常用的数据类型：
* Series
* DataFrame

In [1]:
import pandas as pd
import numpy as np

# Series类型
Series类型类似于Numpy的一维数组对象，可以将该类型看做是一组数据与数据相关的标签（索引）联合而构成（带有标签的一维数组对象）。 
## 创建方式
Series常用的创建（初始化）方式：
* 列表等可迭代对象
* ndarray数组对象
* 字典对象
* 标量

In [15]:
# 创建Series：使用列表
s = pd.Series([1212, 2, 3, 4])
display(s)

0    1212
1       2
2       3
3       4
dtype: int64

In [9]:
# 创建Series：使用可迭代对象
s = pd.Series(range(10))
display(s)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [11]:
# 创建Series：使用ndarray数组
s = pd.Series(np.array([1, 2, 3, 4]))
display(s)

0    1
1    2
2    3
3    4
dtype: int32

In [13]:
# 创建Series：使用字典。字典的key充当标签，字典的value充当Series的值。
s = pd.Series({"a":"xy", "b":"34234", "c":"3243"})
display(s)

a       xy
b    34234
c     3243
dtype: object

In [16]:
# 创建Series：标量
s = pd.Series(33)
display(s)

0    33
dtype: int64

In [17]:
# 在创建Series时，可以使用index参数来显式指定索引。如果没有显式指定，则默认从0开始进行排列。
s = pd.Series(33, index=["k", "x", "y"])
display(s)

k    33
x    33
y    33
dtype: int64

## 相关属性
* index
* values
* shape
* size
* dtype

Series对象可以通过index与values访问索引与值。其中，我们也可以通过修改index属性来修改Series的索引。

说明：
* 如果没有指定索引，则会自动生成从0开始的整数值索引，也可以使用index显式指定索引。  
* Series对象与index具有name属性。Series的name属性可在创建时通过name参数指定。
* 当数值较多时，可以通过head与tail访问前 / 后N个数据。【中间的怎么办？】
* Series对象的数据只能是一维数组类型。

## <font color="green">Series也可以通过索引进行访问数据，与Numpy的ndarray数组对象索引是否存在不同？</font>

In [18]:
s = pd.Series([1, 2, 3, 4], index=list("abcd"))
# 返回Series的索引对象。
display(s.index)
# 返回Series所关联的数组数据。naarray类型。
display(s.values, type(s.values))
# 返回Series对象的形状
display(s.shape)
# 返回元素的个数
display(s.size)
# 返回元素的类型
display(s.dtype)

Index(['a', 'b', 'c', 'd'], dtype='object')

array([1, 2, 3, 4], dtype=int64)

numpy.ndarray

(4,)

4

dtype('int64')

In [27]:
s = pd.Series([1, 2, 3, 4])
# 在创建之后设置Series的name与Series的index的name。
s.name = "Series name"
s.index.name = "Index Name"
display(s)

# 在创建Series的同时，指定name。
s2 = pd.Series([1, 2, 3], name="Series name")
display(s2)

# 创建index对象。可以通过name参数来指定index的名称。
index = pd.Index(["a", "b", "c", "d"], name="index name")
s3 = pd.Series([1, 2, 3, 4], index=index, name="Series name")
display(s3)

Index Name
0    1
1    2
2    3
3    4
Name: Series name, dtype: int64

0    1
1    2
2    3
Name: Series name, dtype: int64

index name
a    1
b    2
c    3
d    4
Name: Series name, dtype: int64

In [33]:
# 通过head / tail 访问前（后）N条记录
s = pd.Series(range(1000))
display(s.head())
display(s.tail())
# head与tail可以指定显示的条数，默认为5条。
s.head(3)

# Series必须是一维的数据
# s = pd.Series(np.random.rand(3, 5))
# display(s)

# 不指定Index的时候，直接生成0-n的索引
s = pd.Series([1, 2, 3])
display(s)
display(s[0])

0    0
1    1
2    2
3    3
4    4
dtype: int64

995    995
996    996
997    997
998    998
999    999
dtype: int64

0    1
1    2
2    3
dtype: int64

1

In [43]:
# Series与ndarray数组都可以通过索引访问元素。不同点：
# ndarray就是类似与list的索引，支持负数，表示倒数。
# Series类似字典的key:value形式的索引。不支持负数。
a = np.array([1, 2, 3])
display(a[-3])
s = pd.Series([1, 2, 3], index=[0, 1, 2])
display(s)
# s[-3]

1

0    1
1    2
2    3
dtype: int64

# Series相关操作
Series在操作上，与Numpy数据具有如下的相似性：
* 支持广播与矢量化运算。
* 支持索引与切片。
* 支持整数数组与布尔数组提取元素。
 
## 运算
Series类型也支持矢量化运算与广播操作。计算规则与Numpy数组的规则相同。同时，Numpy的一些函数，也适用于Series类型，例如，np.mean，np.sum等。  
多个Series运算时，会根据索引进行对齐。当索引无法匹配时，结果值为NaN（缺失值）。

说明：
* 我们可以通过pandas或Series的isnull与notnull来判断数据是否缺失。
* 除了运算符以外，我们也可以使用Series对象提供的相关方法进行运算【可以指定缺失的填充值】。
* 尽管Numpy的一些函数，也适用于Series类型，但Series与ndarray数组对于空值NaN的计算处理方式上是不同的。【Numpy的计算，会得到NaN，而Series会忽略NaN】

In [52]:
s1 = pd.Series([1, 2, 3])
s2 = pd.Series([4, 5, 6])
display(s1 * s2)
display(s1 * 5)

# 对于numpy的一些函数，例如mean，sum等，也适用于Series。
display(np.mean(s1), np.sum(s1))

0     4
1    10
2    18
dtype: int64

0     5
1    10
2    15
dtype: int64

2.0

6

In [57]:
s1 = pd.Series([1, 2, 3], index=[1, 2, 3])
s2 = pd.Series([4, 5, 6], index=[2, 3, 4])
# Series与ndarray数组计算的不同。Series运行时，会根据标签进行对齐，如果标签无法匹配（对齐），就会产生空值（NaN）。
display(s1 + s2)

# 如果不想产生空值，则可以使用Series提供的计算方法来代替运算符的计算。
display(s1.add(s2, fill_value=100))

1    NaN
2    6.0
3    8.0
4    NaN
dtype: float64

1    101.0
2      6.0
3      8.0
4    106.0
dtype: float64

In [58]:
# 判断是否为空值。
s = pd.Series([1, 2, 3, float("NaN"), np.nan])
display(s)

# 判断是否为空值。
display(s.isnull())

# 判断是否不是空值。
display(pd.notnull(s))

0    1.0
1    2.0
2    3.0
3    NaN
4    NaN
dtype: float64

0    False
1    False
2    False
3     True
4     True
dtype: bool

0     True
1     True
2     True
3    False
4    False
dtype: bool

In [60]:
# np.mean, np.sum等函数，在处理ndarray数组与Series时，表现的不同。
# 对于Series，会忽略掉NaN。
a = np.array([1, 2, 3, 4, np.nan])
s = pd.Series([1, 2, 3, 4, np.nan])
display(np.mean(a))
display(np.mean(s))

nan

2.5

## 索引
### 标签索引与位置索引
如果Series对象的index值为非数值类型，通过\[索引\]访问元素，索引既可以是标签索引，也可以是位置索引。这会在一定程度上造成混淆。我们可以通过：
* loc 仅通过标签索引访问。
* iloc 仅通过位置索引访问。

这样，就可以更加具有针对性去访问元素。

### 整数数组索引与布尔数组索引
Series也支持使用整数数组与布尔数组进行索引。
说明：
* 与ndarray数组的整数索引不太相同，Series的整数数组索引，既可以是标签数组索引，也可以是位置数组索引。
* 与Numpy数组相同，二者返回的是原数组数据的拷贝（复制）

In [68]:
# Series的索引分为标签索引与位置索引。
s = pd.Series([1, 2, 3], index=list("abc"))
display(s)

# 既通过标签索引访问，也可以通过位置索引访问。
display(s["a"])
display(s[0])

# 如果指定的索引是数值类型，则位置索引就失灵。
s = pd.Series([1, 2, 3], index=[2, 3, 4])
display(s[3])
# 出错，因为位置索引不再可用。
# display(s[0])

a    1
b    2
c    3
dtype: int64

1

1

2

In [82]:
# 为了避免上诉的混淆性，我们可以通过loc与iloc进行更有针对的访问。
# loc 专门针对标签进行访问
# iloc专门针对位置进行访问
s = pd.Series([1, 2, 3], index=list("abc"))
display(s.loc["a"])
display(s.iloc[0])
# 错误
# display(s.loc[0])
# 错误
# display(s.iloc["a"])

1

1

In [83]:
# 通过整数数组（标签数组索引或者位置数组索引）索引访问元素。
s = pd.Series([1, 2, 3, 4], index=list("abcd"))
display(s.loc["a"])
# 通过标签数组索引元素。
display(s.loc[["a", "d"]])
# 通过位置数组索引元素。
display(s.iloc[[0, 3]])

1

a    1
d    4
dtype: int64

a    1
d    4
dtype: int64

In [84]:
# 通过数组索引返回的是原数据的拷贝（彼此之间不受干扰）。【ndarray也是如此】
s = pd.Series([1, 2, 3, 4], index=list("abcd"))
s2 = s.iloc[[0, 3]]
s2[0] = 1000
display(s, s2)

a    1
b    2
c    3
d    4
dtype: int64

a    1000
d       4
dtype: int64

In [85]:
s = pd.Series([1, 2, 3, 4], index=list("abcd"))
display(s[[True, False, True, False]])
# 实际过程中，布尔数组都是通过计算得出的。
b_array = s > 2
display(b_array)
display(s[s > 2])

a    1
c    3
dtype: int64

a    False
b    False
c     True
d     True
dtype: bool

c    3
d    4
dtype: int64

## 切片
Series也支持切片访问一个区间的元素。与Numpy的数组相同，切片返回的是原数组数据的视图。
## <font color="green">Series的切片与Numpy的ndarray数组对象切片是否存在不同？</font>

In [89]:
# Series也支持切片操作。与ndarray相同的是，Series切片返回的也是原数据的视图。
s1 = pd.Series([1, 2, 3, 4])
s2 = s1[0:3]

# 要对s2改变，会影响到以前的s1。
s2[0] = 1000
display(s1, s2)

0    1000
1       2
2       3
3       4
dtype: int64

0    1000
1       2
2       3
dtype: int64

In [90]:
# Series的索引分为标签索引与位置索引，二者在切片的行为上是不一致的。
# 通过位置索引切片，不包含末尾的值，通过标签索引切片，包含末尾的值。

s = pd.Series([1, 2, 3, 4], index=list("abcd"))
# 通过位置索引切片
display(s.iloc[0:3])
# 通过标签索引切片
display(s.loc["a":"d"])

a    1
b    2
c    3
dtype: int64

a    1
b    2
c    3
d    4
dtype: int64

## Series的CRUD
Series索引-数值CRUD操作：
* 获取值
* 修改值
* 增加索引-值
* 删除索引-值




In [98]:
s = pd.Series([1, 2, 3, 4, 5, 6 ,7], index=list("abcdefg"))
# 获取值，通过标签索引或位置索引（或者是二者的数组）
display(s.loc["a"])
display(s.iloc[0])

# 修改值
s.loc["a"] = 3000
display(s)

# 增加值 就可以像字典那样进行操作
s["new_key"] = "new_value"
display(s)

1

1

a    3000
b       2
c       3
d       4
e       5
f       6
g       7
dtype: int64

a               3000
b                  2
c                  3
d                  4
e                  5
f                  6
g                  7
new_key    new_value
dtype: object

In [108]:
s = pd.Series([1, 2, 3, 4, 5, 6 ,7], index=list("abcdefg"))
# 删除值 类似字典的操作
del s["a"]
display(s)

# 删除值，通过drop方法。
# inplace，就地修改。如果指定为True，则不会返回修改修改后的结果（返回None）。
s.drop("b", inplace=True)
display(s)

# 可以提供一个标签列表，删除多个值。
s1 = s.drop(["c", "d"])
display(s1)
display(s)
s.drop(["c", "d"], inplace=True)
display(s)

b    2
c    3
d    4
e    5
f    6
g    7
dtype: int64

c    3
d    4
e    5
f    6
g    7
dtype: int64

e    5
f    6
g    7
dtype: int64

c    3
d    4
e    5
f    6
g    7
dtype: int64

e    5
f    6
g    7
dtype: int64