# Pandas数据结构、基本功能以及统计方法

## Pandas的数据结构

### Series
> Series是一个一维的类似数组的对象，包含相同类型的值序列(与NumPy类型相似)和关联的数据标签数组，称为它的索引。

In [1]:
import pandas as pd

In [2]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [3]:
# 左边是Series默认index，右边是value
# 可以通过Series的array和index属性获取数组表示和索引对象

In [4]:
# .array属性的结果是一个PandasArray，它通常包装NumPy数组
# 但也可以包含特殊的扩展数组类型
obj.array

<PandasArray>
[4, 7, -5, 3]
Length: 4, dtype: int64

In [5]:
# 查看索引信息 
obj.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
# 创建一个自定义index的Series
obj2 = pd.Series([4, 7, -5, 3], index=["d","b", "a", "c"])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [7]:
# 查看obj2的索引信息
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [8]:
# 与NumPy数组相比，当选择单个值或一组值时，可以在索引中使用自定义标签:
obj2["a"]

-5

In [9]:
# 给其中一个元素赋值
obj2["d"] = 6

In [10]:
# 索引一组值, ["c", "a", "d"]是一个索引列表
obj2[["c", "a", "d"]]

c    3
a   -5
d    6
dtype: int64

In [11]:
# 可以使用NumPy函数或NumPy类操作
# 例如使用布尔数组过滤，标量乘法或应用数学函数，将保留索引-值链:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [12]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [13]:
# 使用numpy操作Series里面的数据
import numpy as np
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [14]:
# 也可以将Series看作固定长度的有序字典, 使用字典操作
"b" in obj2

True

In [15]:
"e" in obj2

False

In [16]:
# 可以通过字典创建一个Series
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}

In [17]:
# key就转换成Series的index
obj3 = pd.Series(sdata)

In [18]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [19]:
# Series也可以使用to_dict()方法转换成字典
obj3.to_dict()

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

In [20]:
# 通过字典创建Series，Series中的索引根据字典的keys()方法的key顺序排列，其实就是字典插入顺序
# 通过自己规定字典键可以控制Series中的顺序和显示
# 不存在的键，值为NaN，也就是缺失值比如下面的California
# Utah没有在states里面，所以结果不包含
states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [21]:
type(obj4["California"])

numpy.float64

In [22]:
# panads中的isna和notna方法可以检测缺失数据
pd.isna(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [23]:
pd.notna(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [24]:
# Series中也有上面两个实例方法
obj4.isna()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [25]:
# Series可以在算术运算中自动通过索引标签对齐
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [26]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [27]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [28]:
# Series对象本身和它的索引都有一个name属性
# 相当于给索引和对象命名
obj4.name = "population"
obj4.index.name = "state"
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [29]:
# 通过Series对象的index属性给Series的索引覆盖命名
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [30]:
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### DataFrame

1. DataFrame表示一个矩形的数据表，包含一个有序的、命名的列集合，每个列可以是不同的值类型(数字、字符串、布尔值等)
2. DataFrame有行索引和列索引

In [31]:
# 构造DataFrame的方法有很多种
# 其中最常见的一种是从等长列表或NumPy数组的字典中构建
# 默认字典的键是列名，value数组的索引是行索引
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [32]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [33]:
# 对于行数多的dataframe，head方法可以只选择前五行
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [34]:
# tail方法可以选择倒数五行
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [35]:
# 如果你指定了一个列序列，DataFrame的列将按照这个顺序排列
pd.DataFrame(data, columns=["year", "state", "pop"])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [36]:
# 如果你传递一个不包含在字典中的列，它将在结果中出现缺失值
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [37]:
# dataframe的columns属性可以获取列索引
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [38]:
# DataFrame中的列可以通过类似字典的表示法或使用点属性表示法作为Series检索
# 实际上一列就是一个Series对象
frame2["state"]

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [39]:
type(frame2["state"])

pandas.core.series.Series

In [40]:
# 通过.的方式也可以获取列Series对象, 但是不推荐使用
# 例如，如果列名包含空格或下划线以外的符号，则不能使用点属性方法访问它
frame2.year

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

In [41]:
# 行也可以通过特殊的iloc和loc属性按位置或名称检索
frame2.loc[1]

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: 1, dtype: object

In [42]:
frame2.iloc[2]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: 2, dtype: object

In [43]:
# 列可以通过赋值进行修改。
# 例如，缺失值的debt列可以用一个标量值填充或一个值数组填充
frame2["debt"] = 16.5

In [44]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2001,Nevada,2.4,16.5
4,2002,Nevada,2.9,16.5
5,2003,Nevada,3.2,16.5


In [45]:
frame2["debt"] = np.arange(6.0)
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,0.0
1,2001,Ohio,1.7,1.0
2,2002,Ohio,3.6,2.0
3,2001,Nevada,2.4,3.0
4,2002,Nevada,2.9,4.0
5,2003,Nevada,3.2,5.0


In [46]:
# 当您将列表或数组分配给列时，值的长度必须与DataFrame的列长度匹配
# 如果你分配了一个Series，它的标签会精确地重新对齐到DataFrame的索引
# 如果Series的索引和dataframe的索引对不上，填充值就失败
val = pd.Series([-1.2, -1.5, -1.7], index=["two", "four", "five"])
frame2["debt"] = val
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [47]:
# del关键字将像使用字典一样删除列
# 首先添加一个新的布尔值列，其中state列等于“Ohio”
frame2["eastern"] = (frame2["state"] == "Ohio")
frame2

Unnamed: 0,year,state,pop,debt,eastern
0,2000,Ohio,1.5,,True
1,2001,Ohio,1.7,,True
2,2002,Ohio,3.6,,True
3,2001,Nevada,2.4,,False
4,2002,Nevada,2.9,,False
5,2003,Nevada,3.2,,False


In [48]:
# 使用del方法删除创建的新列
del frame2["eastern"]
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [49]:
# 索引DataFrame返回的列是底层数据的视图(类似数据库的视图)，而不是副本
# 可以使用Series的copy方法显示复制列
copy_column = frame2["pop"].copy()
copy_column

0    1.5
1    1.7
2    3.6
3    2.4
4    2.9
5    3.2
Name: pop, dtype: float64

In [50]:
# 另一种常见的数据形式是字典的嵌套字典:
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
                "Nevada": {2001: 2.4, 2002: 2.9}}
frame3 = pd.DataFrame(populations)
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [51]:
# 可以将行和列进行转置
# 注意，如果列并非都具有相同的数据类型，那么转置将丢弃列数据类型，因此转置和转置可能会丢失之前的类型信息。
frame3.T

Unnamed: 0,2000,2001,2002
Ohio,1.5,1.7,3.6
Nevada,,2.4,2.9


In [52]:
# 跟Series一样，控制显示的index行，不存在的就为缺失值
# dataframe的行索引是index，列索引是columns
pd.DataFrame(populations, index=[2001, 2002, 2003])

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9
2003,,


In [53]:
# pd.DataFrame()构造器还可以传入很多类型
# 如果一个DataFrame的索引和列设置了他们的name属性，这些也会被显示:
frame3.index.name = "year"
frame3.columns.name = "state"
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [54]:
frame3.index

Int64Index([2000, 2001, 2002], dtype='int64', name='year')

In [55]:
frame3.columns

Index(['Ohio', 'Nevada'], dtype='object', name='state')

In [56]:
# 与Series不同，DataFrame没有name属性。
# DataFrame的to_numpy方法将包含在DataFrame中的数据作为一个二维ndarray返回:
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])

#### 索引对象

In [57]:
# 提取index对象
obj = pd.Series(np.arange(3), index=["a", "b", "c"])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [58]:
index[1:]

Index(['b', 'c'], dtype='object')

In [59]:
# 使用构造器构造一个索引对象
pd.Index(np.arange(3))

Int64Index([0, 1, 2], dtype='int64')

In [60]:
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [61]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [62]:
obj2.index is labels

True

In [63]:
# 除了类似数组，Index的行为也像一个固定大小的集合:
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [64]:
frame3.columns

Index(['Ohio', 'Nevada'], dtype='object', name='state')

In [65]:
"Ohio" in frame3.columns # 查看列是否在列索引中

True

In [66]:
2003 in frame3.index # 查看行是否在行索引中

False

## 基本功能

### 重建索引

In [67]:
# pandas对象的一个重要方法是重新索引(reindex)，这意味着创建一个新对象，重新排列值以与新索引对齐。
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d","b", "a", "c"])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [68]:
# 在Series上调用reindex方法将根据新的索引重新排列数据，如果任何索引值都不存在，则引入缺失值
obj2 = obj.reindex(["a", "b", "c", "d", "e"])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [69]:
obj3 = pd.Series(["blue", "purple", "yellow"], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [70]:
obj3.reindex(np.arange(6), method="ffill") # 重建索引时使用ffill这样的方法填充值

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [71]:
# 使用DataFrame, reindex可以更改(行)索引、列或两者都更改。
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                      index=["a", "c", "d"],
                      columns=["Ohio", "Texas", "California"])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [72]:
frame2 = frame.reindex(index=["a", "b", "c", "d"])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [73]:
for col in frame2.columns:
    print(col)

Ohio
Texas
California


In [74]:
# 列可以用columns关键字重新索引
frame.reindex(columns=["Texas", "Utah", "California"])

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [75]:
# 通过更改axis单独设置索引
frame.reindex(["Texas", "Utah", "California"], axis="columns")

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


### 删除

In [76]:
# drop方法将返回一个带有指定值的新对象或从轴上删除的值
# drop的参数和reindex基本一致
# 可以根据索引对Series和DataFrame进行删除
obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [77]:
new_obj = obj.drop("c")
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [78]:
obj.drop(["d", "c"])

a    0.0
b    1.0
e    4.0
dtype: float64

In [79]:
# 删除DataFrame行或列
# 先创建一个DataFrame
data = pd.DataFrame(np.arange(16).reshape((4, 4)), index=["Ohio", "Colorado", "Utah", "New York"], columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [80]:
# 删除行并返回删除后的df
data.drop(index=["Colorado", "Ohio"])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [81]:
data # 原DataFrame没有改变

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [82]:
# 删除列
data.drop(columns=["two"])

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [83]:
# 通过设置axis来控制删除的是行还是列
data.drop(["two", "four"], axis="columns")

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


### 索引、选择和过滤

In [84]:
# 基本的索引
# 以Series为例
obj = pd.Series(np.arange(4), index=["a", "b", "c", "d"])
obj

a    0
b    1
c    2
d    3
dtype: int32

In [85]:
obj["b"]

1

In [86]:
obj[0]

0

In [87]:
obj[obj > 1]

c    2
d    3
dtype: int32

In [88]:
obj[2 : 4]

c    2
d    3
dtype: int32

In [89]:
obj[["b", "a"]]

b    1
a    0
dtype: int32

In [90]:
obj[[1, 3]]

b    1
d    3
dtype: int32

In [91]:
obj.loc[["b", "a", "d"]]

b    1
a    0
d    3
dtype: int32

In [92]:
obj.iloc[[0, 1, 2]]

a    0
b    1
c    2
dtype: int32

In [93]:
obj.loc["b" : "c"] # 左闭右闭

b    1
c    2
dtype: int32

In [94]:
# 索引DataFrame
# 创建一个DataFrame
data = pd.DataFrame(np.arange(16).reshape((4, 4)), index=["Ohio", "Colorado", "Utah", "New York"], columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [95]:
data["two"]

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [96]:
data[["two", "three"]]

Unnamed: 0,two,three
Ohio,1,2
Colorado,5,6
Utah,9,10
New York,13,14


In [97]:
data[:2] # 行切片

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [98]:
data[data["three"] > 5] # 筛选行

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [99]:
# DataFrame的每一个值是否满足条件
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [100]:
# 使用loc
data.loc["Colorado"]

one      4
two      5
three    6
four     7
Name: Colorado, dtype: int32

In [101]:
data.loc[["Colorado", "New York"]]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
New York,12,13,14,15


In [102]:
# 同时筛选行列
data.loc["Colorado", "two"]

5

In [103]:
data.loc["Colorado", ["two", "three"]]

two      5
three    6
Name: Colorado, dtype: int32

In [104]:
data.loc[["Colorado", "New York"], ["two", "three"]]

Unnamed: 0,two,three
Colorado,5,6
New York,13,14


In [105]:
data.loc["Colorado" : "New York"]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [106]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [107]:
# 使用iloc
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [108]:
data.iloc[[2, 1]]

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
Colorado,4,5,6,7


In [109]:
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,4,5
Utah,11,8,9


### 整数索引陷阱

In [110]:
data[-1]

KeyError: -1

In [111]:
data[0]

KeyError: 0

In [112]:
# 为了避免整数索引的陷阱还是尽量使用loc和iloc进行索引

### 链式索引的缺陷

In [113]:
# 不要使用链式索引，会在赋值时可能出现问题
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15
