In [1]:
import pandas as pd

# Pandas的数据结构

## Series

Series是一种类似于一维数组的对象，它由一组数据（各种 NumPy 数据类型）以及一组与之相关的数据标签（即索引）组成。

In [2]:
obj = pd.Series([4, 7, -5, 3])

In [3]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

Series的字符串表现形式为：索引在左边，值在右边。由于我们没有为数据指定索引，于是会自动创建一个 0 到N-1（N为数据的长度）的整数型索引。

### 自定义索引

In [4]:
obj2 = pd.Series([1, 2, 4], index=['a', 'c', 'e'])

In [5]:
obj2

a    1
c    2
e    4
dtype: int64

使用 NumPy 函数或类似 NumPy 的运算（如根据布尔型数组进行过滤、标量乘法、应用数学函数等）都会保留索引值的链接。

In [6]:
obj2[obj2 < 3]

a    1
c    2
dtype: int64

对于许多应用而言，Series最重要的一个功能是，它会根据运算的索引标签自动对齐数据。

In [7]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

obj3 = pd.Series(sdata)

In [8]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [10]:
states = ['California', 'Ohio', 'Oregon', 'Texas']

obj4 = pd.Series(sdata, index=states)

In [11]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [12]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

### name属性

Series对象本身及其索引都有一个name属性，该属性跟 pandas 其他的关键功能关系非常密切。

In [16]:
obj3.name = 'population'

In [17]:
obj3.index.name = 'city'

In [18]:
obj3

city
Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
Name: population, dtype: int64

Series的索引可以通过赋值的方式就地修改。

In [19]:
obj3

city
Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
Name: population, dtype: int64

In [21]:
obj3.index = ['CA', 'LA', 'WS', 'NY']

In [22]:
obj3

CA    35000
LA    71000
WS    16000
NY     5000
Name: population, dtype: int64

## DataFrame

DataFrame是一个表格型的数据结构，它含有一组有序的列，**每列可以是不同的值类型（数值、字符串、布尔值等）**。DataFrame既有行索引也有列索引。

### 创建

In [23]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [24]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [25]:
frame.index = ['a', 'b', 'c', 'd', 'e', 'f']

In [26]:
frame

Unnamed: 0,state,year,pop
a,Ohio,2000,1.5
b,Ohio,2001,1.7
c,Ohio,2002,3.6
d,Nevada,2001,2.4
e,Nevada,2002,2.9
f,Nevada,2003,3.2


### head() 方法 和 tail() 方法

对于特别大的DataFrame，head方法会选取前五行。tail是最后五行。可以加参数指定行数。

In [27]:
frame.head()

Unnamed: 0,state,year,pop
a,Ohio,2000,1.5
b,Ohio,2001,1.7
c,Ohio,2002,3.6
d,Nevada,2001,2.4
e,Nevada,2002,2.9


In [28]:
frame.tail()

Unnamed: 0,state,year,pop
b,Ohio,2001,1.7
c,Ohio,2002,3.6
d,Nevada,2001,2.4
e,Nevada,2002,2.9
f,Nevada,2003,3.2


### 指定columns和index创建
如果传入的列在数据中找不到，就会在结果中产生缺失值。

In [29]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'], index=['one', 'two', 'three', 'four', 'five', 'six'])

In [30]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [31]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [32]:
frame2.index

Index(['one', 'two', 'three', 'four', 'five', 'six'], dtype='object')

### 索引行和列

通过类似字典标记的方式或属性的方式，可以将DataFrame的列获取为一个Series。

注意，df[val]切片的时候是索引行。。(从第六章回来)

In [33]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [34]:
frame2.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

也就是说，默认是索引的列。如果需要索引行，需要使用loc或者iloc属性。

In [35]:
frame2.loc['one']

year     2000
state    Ohio
pop       1.5
debt      NaN
Name: one, dtype: object

In [36]:
frame2.iloc[3]

year       2001
state    Nevada
pop         2.4
debt        NaN
Name: four, dtype: object

将列表或数组赋值给某个列时，其长度必须跟DataFrame的长度相匹配。如果赋值的是一个Series，就会精确匹配DataFrame的索引，所有的空位都将被填上缺失值。

### 关键字 del 删除列

In [37]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [38]:
del frame2['debt']

In [39]:
frame2

Unnamed: 0,year,state,pop
one,2000,Ohio,1.5
two,2001,Ohio,1.7
three,2002,Ohio,3.6
four,2001,Nevada,2.4
five,2002,Nevada,2.9
six,2003,Nevada,3.2


要更精细化的删除，比如删除行或者批量删除之类的，使用[drop（）](https://blog.csdn.net/songyunli1111/article/details/79306639)方法。

### .values()

values属性也会以二维ndarray的形式返回DataFrame中的数据。

In [41]:
frame2

Unnamed: 0,year,state,pop
one,2000,Ohio,1.5
two,2001,Ohio,1.7
three,2002,Ohio,3.6
four,2001,Nevada,2.4
five,2002,Nevada,2.9
six,2003,Nevada,3.2


In [42]:
frame2.values

array([[2000, 'Ohio', 1.5],
       [2001, 'Ohio', 1.7],
       [2002, 'Ohio', 3.6],
       [2001, 'Nevada', 2.4],
       [2002, 'Nevada', 2.9],
       [2003, 'Nevada', 3.2]], dtype=object)

### 索引对象

构建Series或DataFrame时，所用到的任何数组或其他序列的标签都会被转换成一个Index。

In [43]:
frame = frame2
frame.index

Index(['one', 'two', 'three', 'four', 'five', 'six'], dtype='object')

## 基本功能

### 重新索引

pandas 对象的一个重要方法是reindex，其作用是创建一个新对象，它的数据符合新的索引。

In [44]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])

In [45]:
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [46]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])

In [47]:
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

对于时间序列这样的有序数据，重新索引时可能需要做一些插值处理。method选项即可达到此目的，例如，使用ffill可以实现前向值填充。

列可以用columns关键字重新索引。

In [49]:
import numpy as np

In [50]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)), index=['a', 'c', 'd'], columns=['Ohio', 'Texas', 'California'])

In [51]:
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [52]:
states = ['Texas', 'Utah', 'California']

In [53]:
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


### drop()

丢弃某条轴上的一个或多个项很简单，只要有一个索引数组或列表即可。由于需要执行一些数据整理和集合逻辑，所以drop方法返回的是一个在指定轴上删除了指定值的新对象。

### 用loc和iloc进行选取

In [54]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)), index=['Ohio', 'Colorado', 'Utah', 'New York'], columns=['one', 'two', 'three', 'four'])

In [55]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [56]:
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int64

In [57]:
data.iloc[2, [3, 0, 1]]

four    11
one      8
two      9
Name: Utah, dtype: int64

### 算术运算和数据对齐

pandas 最重要的一个功能是，它可以对不同索引的对象进行算术运算。

在将对象相加时，如果存在不同的索引对，则结果的索引就是该索引对的并集。

总而言之就是索引相同的会计算。

In [58]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

In [59]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

In [60]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

对于DataFrame，对齐操作会同时发生在行和列上。

### 填充值

在对不同索引的对象进行算术运算时，你可能希望当一个对象中某个轴标签在另一个对象中找不到时填充一个特殊值（比如 0）。

需要使用df1的add方法，传入df2以及一个fill_value参数。

### DataFrame和Series之间的运算

也是会传播。

### 函数应用

NumPy 的ufuncs（元素级数组方法）也可用于操作 pandas 对象。

In [61]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [62]:
f = lambda x: x.max() - x.min()

In [63]:
frame.apply(f)

b    1.404792
d    3.902422
e    3.464232
dtype: float64

**如果传递axis='columns'到apply，这个函数会在每行执行。**

In [64]:
frame.apply(f, axis='columns')

Utah      1.825195
Ohio      2.214174
Texas     1.252318
Oregon    3.280008
dtype: float64