In [None]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

# 5.1 pandas的数据结构介绍

## 5.1.1 Series

### 创建

In [None]:
# 创建
s1 = pd.Series([1, 2, -4, 5])

In [None]:
# 指定index创建
s2 = pd.Series([1, 2, -4, 5], index = ['a', 'b', 'd', 's'], name='s2')

In [None]:
# 使用字典创建时，会按照key排序??这里运行结果没有排序，还是sdata中的与原顺序，跟书不一样！！
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
s3 = pd.Series(sdata)
s3

In [None]:
# 当传入的index里面的值跟sdata的keys不一样时，以index为准，sdata没有的填NaN，sdata多余的丢弃
states = ['California', 'Ohio', 'Oregon', 'Texas']
s4 = pd.Series(sdata, index=states)
s4

### 取值赋值

In [None]:
# 取values和index
s2.values, s2.index

In [None]:
# 修改name
s2.name = 's2_new'
s2.index.name = 's2_index'
s2

In [None]:
# 修改index
s2.index = ['x', 'y', 'z', 't']
s2

In [None]:
# 取单个值，注意不能用.取值，只能用[]
s2['x']
# list取值
s2[['x', 'y']]
# 赋值
s2['t'] = 10
# list赋值
s2[['x', 'y']] = [3, 4]
s2

In [None]:
# 使用del可以删除某个值
del s2['x']
s2

### 运算

In [None]:
# bool数组索引
s2[s2 > 0]

In [None]:
# 元素级的运算
s2 * 2

In [None]:
# 应用numpy函数
np.exp(s2)

In [None]:
# 元素级加法时，会自动对齐，Nan会传播
s3 + s4

### 判断空，存在性

In [None]:
# 将Series当做固定长度有序的dict，可以使用in
'a' in s2

In [None]:
# 判断非空,问题: isna和isnull的区别?
pd.isnull(s2), pd.notnull(s2)

In [None]:
# 使用实例方法
s2.isnull(), s2.notnull()

## 5.1.2 DataFrame

###  创建

In [None]:
# 等长list的dict创建
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
df1 = pd.DataFrame(data)

In [None]:
# 指定columns和index
df2 = pd.DataFrame(data, columns=['pop', 'state', 'year', 'empty1', '1'], index = range(3, 9))
df2

In [None]:
# 使用嵌套字典创建，外层为列名，内层为index，index会重新排序
pop = {'Ohio': {2002: 2.4, 2001: 2.9}, 'Nevada': {2002: 1.5, 2001: 1.7, 2000: 3.6}}
df3 = pd.DataFrame(pop)
df3

In [None]:
# 指定index以后不会重新排序
# 照抄书居然会报错：'list' object has no attribute 'astype'
# 嵌套字典初始化时不再支持指定index？
# pop = {'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
# df4 = pd.DataFrame(pop, index = [2001, 2002, 2003])
# df4

In [None]:
# Series的字典来构造
pdata = {'Ohio': df3['Ohio'][:-1], 'Nevada': df3['Nevada'][:2]}
df5 = pd.DataFrame(pdata)
df5

![title](../images/table_5-1.jpg)

### 取值赋值

In [None]:
# 取前几行
df2.head(3)

In [None]:
# 取columns
df2.columns
# 取index
df2.index

In [None]:
# values返回一个二维的ndarray
df2.values

In [None]:
# 修改name
# df2本身没有name属性
df2.index.name = 'df2_index'
df2.columns.name = 'df2_columns'
df2

In [None]:
# []取值，取列，返回一个相同index的Series，并且本身的name和index的name已经设置好
df2['pop']

In [None]:
# 用.取值，只有列名是合法的python变量名才能用这种方式，结果同[]取值
# 比如df2.1会报错，只能用df2['1']
df2.empty1

In [None]:
# 使用loc加方括号取值，取某一行，
df2.loc[3]

In [None]:
# 赋值，使用[]或者.赋值
# 赋值标量
df2['1'] = 5
# 赋值等长list、range对象、np.arange对象时，长度必须匹配
df2.empty1 = ['a1', 'a2', 'a3', 'a4', 'a5', 'a6']
df2.empty1 = range(6)
df2.empty1 = np.arange(6)
# 赋值Series对象时，会匹配index，多余的index忽视，不包含的填NaN
df2.empty1 = pd.Series([1, 2, 3, 4], index = [2, 3, 5, 10])
df2

In [None]:
# 使用[]直接添加新的列
df2['eastern'] = df2.state == 'Ohio'
# 用.添加不能添加新列，不会报错，但不起作用
df2.c = 4

In [None]:
# loc加[]同样可以对某一行赋值
df2.loc[3] = 5

In [None]:
# loc加[]直接添加新的行
df2.loc['new_index'] = 3
df2

In [None]:
# 删除某一列，可以用[],不能用.
del df2['empty1']
# 不能用loc删除行，报错：AttributeError: __delitem__
# del df2.loc[3]
# 可以使用drop函数，领inplace=True来删除行

### 判断空、存在性、其他操作

In [None]:
# empty操作，当行或者列是空的时候，empty为true
d = pd.DataFrame([], columns=['a', 'b'])
d1 = pd.DataFrame([], index = [1, 2])
d1.empty

In [None]:
# 用in判断列名是否包含
'pop' in df2

In [None]:
# 判断列或行是否包含
'pop' in df2.columns
5 in df2.index

In [None]:
# 转置
df2.T

## 5.1.3 Index Objects（索引对象）

In [None]:
# index可以当成序列使用，比如分片
index = s2.index
index[2:]

In [None]:
# index是不可修改的，因为可以在不同的结构中共享index
labels = pd.Index(np.arange(3))
s = pd.Series([1, 3, 2.3], index = labels)
s.index is labels

In [None]:
# index里面的元素可以重复
index2 = pd.Index(['a1', 'a1', 'a2'])
# 当选择a1时会把所有的都选出来
s = pd.Series([1, 2, 3], index = index2)
s['a1']

![title](../images/table_5-2.jpg)

# 5.2 基本功能

## 5.2.1 Reindexing（重新索引）
reindex的作用是使用原来的数据构造一个新的Series或者DataFrame，但是index或者columns不同。不存在的数据会自动填nan

In [None]:
# reindex将使用新的index重排，不存在的值填nan
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj.reindex(['a', 'b', 'c', 'd', 'e'])

In [None]:
# 对于时间序列这样的有序数据，reindex时可能需要做插值，method参数可以达到这个目的
# ffill实现向前填充
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3.reindex(range(6), method = 'ffill')

In [None]:
# DataFrame可以reindex行，列或者同时reindex
frame = pd.DataFrame(np.arange(12).reshape(4, 3), index = ['a', 'b', 'c', 'd'], columns=['c1', 'c2', 'c3'])
# 当只传一个list时，reindex的对象是行（也就是原来的index）
# 因为index多了'e'，填充nan，所以原来的int32变成了float
frame.reindex(['a', 'd', 'e', 'b', 'c'])
# 增加axis参数1，可以reindex列
frame.reindex(['c1', 'c3', 'c2'], axis=1)
# 或者使用columns参数来reindex列
frame.reindex(columns = ['c1', 'c3', 'c2'])
# 同时reindex行和列
frame.reindex(['a', 'd', 'e', 'b', 'c'], columns = ['c1', 'c3', 'c2'])

![title](../images/table_5-3.jpg)

In [None]:
# 使用loc来更简单的实现reindex
# 会报FutureWarning！！！还是应该使用reindex来更好理解
# frame.loc[['a', 'd', 'e', 'b', 'c'], ['c1', 'c3', 'c2']]

## 5.2.2 Dropping Entries from an Axis（丢弃指定轴上的项）
drop函数返回的是新对象,del是原地删除

In [None]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
# del是原地删除，只能删除一个值
del obj['a']
# drop删除一个值或者一个list里面的所有值
obj.drop('b')
obj.drop(['b', 'c'])
obj

In [None]:
# DataFrame可以删除任一轴上的值
data = pd.DataFrame(np.arange(16).reshape(4, 4), 
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
# drop默认删除的是行的元素
data.drop('Ohio')
data.drop(['Ohio', 'Colorado'])
# 传递axis=1或者axis='columns'，可以删除列
data.drop('one', axis=1)
data.drop(['one', 'three'], axis='columns')

In [None]:
# 许多函数，比如drop，会改变Series或者DataFrame的size或者shape，默认是会返回新的对象
# 但是可以指定inplace=True来原地修改
# 小心使用inplace，它会销毁所有被删除的数据
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj.drop('c', inplace=True)
obj

## 5.2.3 Indexing, Selection, and Filtering（索引、选取和过滤）

In [None]:
# Series索引类似于Numpy的索引，可以是数字或者标签
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
# 单个索引
obj['b']
obj[1]
# list索引
obj[['b', 'c']]
obj[[1, 3, 2]]
# 分片索引
obj[2:4]
obj['b':'d']  # 标签的分片索引会包含末端
# boolean Series索引
obj[obj < 2]

In [None]:
# 以上索引方式都可以用来赋值
obj[['b', 'c']] = [10, 11]
obj[2:4] = 3

In [None]:
# DataFrame默认[]索引是列，只能是标签索引，不能是数字，也不能是分片
data = pd.DataFrame(np.arange(16).reshape(4, 4), 
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data['one']  # 只有一个时，返回的是Series
data[['one', 'three', 'two']]  # 是list时，返回DataFrame
# data[1]    # 数字会报错
# data['one':'three']    # 分片索引也不行

In [None]:
# 当使用数字分片索引时，是取的行，始终返回DataFrame
data[1:2]  
data[0:3]

In [None]:
# 当使用bool Series来索引时，会匹配行

In [None]:
data[['one', 'three']] > 5

In [None]:
# bool数组索引时，也是按行来判断的
tag = data['three'] > 5
data[tag]

In [None]:
# bool数组索引时，也是按行来判断的
tag = data[['one', 'three']] > 5
tag
data[tag]

In [None]:
data[1:2] > 5

In [None]:
data[data[1:2] > 5]