    Pandas 的三个基本数据结构：Series、DataFrame 和 Index

In [1]:
import numpy as np
import pandas as pd

# 1-Pandas的Series对象
    Pandas 的 Series 对象是一个带索引数据构成的一维数组.

In [2]:
# 用一个 数组创建 Series 对象，默认索引是整数
data = pd.Series([0.25,0.5,0.75,1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Series 对象将一组数据和一组索引绑定在一起，可以通过 values 属性和 index 属性获取数据。

In [3]:
# values 属性返回的结果与 NumPy 数组类似。
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [4]:
# index 属性返回的结果是一个类型为 pd.Index 的类数组对象（见后面）。
data.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
# 数据可以通过 Python 的中括号索引标签获取
data[1]

0.5

In [6]:
# 切片
data[1:3]

1    0.50
2    0.75
dtype: float64

Series 对象和一维 NumPy 数组本质差异其实是索引：

    NumPy 数组通过隐式定义的整数索引获取数值。

    Series 对象用一种显式定义的索引与数值关联。

In [7]:
# 索引不仅仅是整数，还可以是任意想要的类型
data = pd.Series([0.25,0.5,0.75,1], index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [8]:
# 获取数值
data['c']

0.75

In [9]:
# 使用不连续或不按顺序的索引
data = pd.Series([0.25,0.5,0.75,1.0], index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [10]:
data[5]

0.5

可以把 Pandas 的 Series 对象看成一种特殊的 Python 字典。

    Series 对象其实是一种将类型键映射到一组类型值的数据结构。

In [11]:
# 直接用 Python 的字典创建一个 Series 对象
population_dict = {'California': 38332521,
                    'Texas': 26448193,
                    'New York': 19651127,
                    'Florida': 19552860,
                    'Illinois': 12882135}

population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [12]:
# 字典数值获取方式仍然有效
population['California']

38332521

In [13]:
# Series 对象还支持数组形式的操作，比如切片
population['California':'Florida']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64

In [14]:
population[:'New York']

California    38332521
Texas         26448193
New York      19651127
dtype: int64

语法：pd.Series(data, index=index)

    index 是一个可选参数，data 参数支持多种数据类型（data 可以是列表或 NumPy 数组）

In [15]:
# 1-index 默认值为整数序列，这时 index 默认值为整数序列
pd.Series([2,4,6])

0    2
1    4
2    6
dtype: int64

In [16]:
# 2-data 是一个标量，创建 Series 对象时会重复填充到每个索引上
pd.Series(5, index=[100,200,300])

100    5
200    5
300    5
dtype: int64

In [17]:
# 3-data 是一个字典{键：值}，index 默认是排序的字典键：
pd.Series({2:'a',1:'b',3:'c'})

2    a
1    b
3    c
dtype: object

In [18]:
# 都可以通过显式指定索引筛选需要的结果
pd.Series({2:'a',1:'b',3:'c'}, index=[3,2])

3    c
2    a
dtype: object

In [19]:
pd.Series(5, index=[100,200,300])[100]

5

Series 对象只会保留显式定义的键值对。

# 2-Pandas 的 DataFrame 对象
    DataFrame 既可以作为一个通用型 NumPy 数组，也可以看作特殊的 Python 字典。

DataFrame 可以看作是一种既有灵活的行索引，又有灵活列名的二维数组。

    可以把 DataFrame 看成是有序排列的若干 Series 对象。
    这里的“排列”指的是它们拥有共同的索引。

In [20]:
area_dict = {'California': 423967,
             'Texas': 695662,
             'New York': 141297,
             'Florida': 170312,
             'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [21]:
# 用一个字典创建一个包含这些信息的二维对象
states = pd.DataFrame({'population':population, 'area':area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [22]:
# DataFrame 的 index 属性可以获取索引标签---（理解：行）
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [23]:
states.index[1]

'Texas'

In [24]:
# DataFrame 的 columns 属性，是存放列标签的 Index 对象-----(理解：列)
states.columns

Index(['population', 'area'], dtype='object')

In [25]:
states.columns[0]

'population'

DataFrame 可以看作一种通用的 NumPy 二维数组，它的 行 与 列 都可以通过索引获取。

字典是一个键映射一个值，而 DataFrame 是一列映射一个 Series 的数据。

In [26]:
# 通过 'area' 的列属性可以返回包含面积数据的 Series 对象。
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [27]:
states['population']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Name: population, dtype: int64

In [28]:
states['population']['California']

38332521

在 NumPy 的二维数组里，data[0] 返回第一 行；而在 DataFrame 中，data['col0'] 返回第一列。

方法1：通过单个 Series 对象创建

    DataFrame 是一组 Series 对象的 集合，可以用单个 Series 创建一个单列的 DataFrame。

In [29]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [30]:
pd.DataFrame(population) # 没有 index 默认是整数序列

Unnamed: 0,0
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


方法2：通过字典列表创建。

    任何元素是字典的列表都可以变成 DataFrame。

In [31]:
# 用一个简单的列表综合来创建一些数据：
data = [{'a':i,'b':2*i} for i in range(3)]
print(data)
pd.DataFrame(data)

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]


Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [32]:
pd.DataFrame(data)['b']

0    0
1    2
2    4
Name: b, dtype: int64

In [33]:
pd.DataFrame(data, index=['s','d','f'])['a']

s    0
d    1
f    2
Name: a, dtype: int64

In [34]:
# 即使字典中有些键不存在，
# Pandas 也会用缺失值 NaN（不是数字）来补充
pd.DataFrame([{'a':1,'b':2}, {'b':3,'c':4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


方法3-通过 Series 对象字典创建。

    DataFrame 可以用一个由 Series 对象构成的字典创建。

In [35]:
 pd.DataFrame({'population': population, 
               'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


方法4：通过 NumPy 二维数组创建。

    有二维数组，创建一个可以指定行列索引值的 DataFrame。

    如果不指定行列索引值，那么行列默认都是整数索引值。

In [36]:
pd.DataFrame(np.random.rand(3,2),columns=['foo','bar'],index=['a','b','c'])

Unnamed: 0,foo,bar
a,0.116202,0.499901
b,0.570009,0.969152
c,0.292072,0.667171


方法5：通过 NumPy 结构化数组创建。

    由于 Pandas 的 DataFrame 与结构化数组十分相似，因此可以通过结构化数组创建 DataFrame.

In [37]:
A = np.zeros(3, dtype=[('A','i8'),('B','f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [38]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


# 3-Pandas 的 Index 对象
    Pandas 的 Index 对象可以将它看作是一个不可变数组或有序集合
    （实际上是一个多集，因为 Index 对象可能会包含重复值）。

In [39]:
# 用一个简单的整数列表来创建一个 Index 对象
ind = pd.Index([2,3,5,7,11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [40]:
# Index 对象的许多操作都像数组。
# 可通过标准 Python 的取值方法获取数值，也可以通过切片获取数值
ind[1]

3

In [41]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [42]:
# Index 对象还有许多与 NumPy 数组相似的属性
ind.size, ind.shape, ind.ndim, ind.dtype

(5, (5,), 1, dtype('int64'))

Index 对象与 NumPy 数组之间的不同在于，Index 对象的索引是不可变的，

也就是说不能通过通常的方式进行调整。

In [43]:
ind[1] = 0

TypeError: Index does not support mutable operations

Index 对象的不可变特征使得多个 DataFrame 和数组之间进行索 引共享时更加安全，尤其是可以避免因修改索引时粗心大意而导致 的副作用。

Pandas 对象被设计用于实现许多操作，如连接（join）数据集，其中会涉及许多集合操作。

Index 对象遵循 Python 标准库的集合（set）数据结构的许多习惯用法，包括并集、交集、差集等

In [44]:
indA = pd.Index([1,3,5,7,9])
indB = pd.Index([2,3,5,7,11])

In [45]:
# 交集
indA & indB

Int64Index([3, 5, 7], dtype='int64')

In [46]:
# 并集
indA | indB

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [47]:
# 异或
indA ^ indB

Int64Index([1, 2, 9, 11], dtype='int64')

In [48]:
# 还可以通过调用对象方法来实现
indA.intersection(indB)

Int64Index([3, 5, 7], dtype='int64')