# 1.Pandas 的 Series 对象

Pandas 的 Series 对象是一个带索引数据构成的一维数组。可以用一个数组创建 Series 对
象，

In [1]:
import pandas
print(pandas.__version__)

import numpy as np
import pandas as pd

1.3.4


In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

你会发现 Series 对象将一组数据和一组索引绑定在一起，我们可以通过
values 属性和 index 属性获取数据。 values 属性返回的结果与 NumPy 数组类似

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

index 属性返回的结果是一个类型为 pd.Index 的类数组对象

和 NumPy 数组一样，数据可以通过 Python 的中括号索引标签获取：

In [6]:
print(data.index)
print(data[1])
print(data[1:3])

RangeIndex(start=0, stop=4, step=1)
0.5
1    0.50
2    0.75
dtype: float64


### 1.1 Serise 是通用的NumPy数组
NumPy 数组通过隐式定义的整数索引获取数值，而 Pandas 的Series 对象用一种显式定义的索引与数值关联。

In [7]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
index=['a', 'b', 'c', 'd'])
print(data)

#也可以使用不连续或不按顺序的索引：
data = pd.Series([0.25, 0.5, 0.75, 1.0],
index=[2, 5, 3, 7])
print(data)

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64


### 1.2. Series 是特殊的字典
+ 字典是一种将任意键映射到
一组任意值的数据结构，而 Series 对象其实是一种将类型键映射到一组类型值的数据结
构。类型至关重要：就像 NumPy 数组背后特定类型的经过编译的代码使得它在某些操作
上比普通的 Python 列表更加高效一样，Pandas Series 的类型信息使得它在某些操作上比
Python 的字典更高效

+ 用字典创建 Series 对象时，其索引默认按照顺序排列。

+ 和字典不同， Series 对象还支持数组形式的操作，比如切片：


In [10]:
population_dict = {'California': 38332521,
'Texas': 26448193,
'New York': 19651127,
'Florida': 19552860,
'Illinois': 12882135}
population = pd.Series(population_dict)
print(population)
# 用字典创建 Series 对象时，其索引默认按照顺序排列。
print(population['California'])

print(population['California':'Illinois'])

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64
38332521
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


### 1.3. 创建 Series 对象

In [13]:
# 其中， index 是一个可选参数， data 参数支持多种数据类型。
index=[1]
print(pd.Series(data, index=index))

# data 可以是列表或 NumPy 数组，这时 index 默认值为整数序列
print(pd.Series([2, 4, 6]))

# data 也可以是一个标量，创建 Series 对象时会重复填充到每个索引上
print(pd.Series(5, index=[100, 200, 300]))

# data 还可以是一个字典， index 默认是排序的字典键：
print(pd.Series({2:'a', 1:'b', 3:'c'}))
# 每一种形式都可以通过显式指定索引筛选需要的结果：
print(pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2]))


1   NaN
dtype: float64
0    2
1    4
2    6
dtype: int64
100    5
200    5
300    5
dtype: int64
2    a
1    b
3    c
dtype: object
3    c
2    a
dtype: object


# 2.Pandas 的 DataFrame 对象

### 2.1如果将 Series 类比为带灵活索引的一维数组，那么 DataFrame 就可以看作是一种既有灵活
的行索引，又有灵活列名的二维数组。就像你可以把二维数组看成是有序排列的一维数组
一样，你也可以把 DataFrame 看成是有序排列的若干 Series 对象。这里的“排列”指的是
它们拥有共同的索引。

In [16]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
print(area)

states = pd.DataFrame({'population': population,
'area': area})
print(states)
# Series 对象一样， DataFrame 也有一个 index 属性可以获取索引标签
print(states.index)
# DataFrame 还有一个 columns 属性，是存放列标签的 Index 对象
print(states.columns)

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64
            population    area
California    38332521  423967
Texas         26448193  695662
New York      19651127  141297
Florida       19552860  170312
Illinois      12882135  149995
Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')
Index(['population', 'area'], dtype='object')


### 2.2. DataFrame 是特殊的字典
与 Series 类似，我们也可以把 DataFrame 看成一种特殊的字典。字典是一个键映射一个值，而 DataFrame 是一列映射一个 Series 的数据。例如，通过 'area' 的列属性可以返回
包含面积数据的 Series 对象：

In [17]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

### 2.3. 创建 DataFrame 对象

+ 通过单个 Series 对象创建。 DataFrame 是一组 Series 对象的集合，可以用单个 Series创建一个单列的 DataFrame ：
+ 通过字典列表创建。任何元素是字典的列表都可以变成 DataFrame 。用一个简单的列表
综合来创建一些数据
+ 通过 Series 对象字典创建。就像之前见过的那样， DataFrame 也可以用一个由 Series
对象构成的字典创建
+ 通过 NumPy 二维数组创建。假如有一个二维数组，就可以创建一个可以指定行列索引
值的 DataFrame 。如果不指定行列索引值，那么行列默认都是整数索引值
+ 通过 NumPy 结构化数组创建。2.9 节曾介绍过结构化数组。由于 Pandas 的 DataFrame
与结构化数组十分相似，因此可以通过结构化数组创建 DataFrame

In [20]:
pd.DataFrame(population, columns=['population'])

data = [{'a': i, 'b': 2 * i}
for i in range(3)]
pd.DataFrame(data)
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

pd.DataFrame({'population': population,
'area': area})

pd.DataFrame(np.random.rand(3, 2),
columns=['foo', 'bar'],
index=['a', 'b', 'c'])

A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
pd.DataFrame(A)


Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


# 3 Pandas 的 Index 对象

Series 和 DataFrame 对象都使用便于引用和调整的显式索引。Pandas 的
Index 对象是一个很有趣的数据结构，可以将它看作是一个不可变数组或有序集合（实际
上是一个多集，因为 Index 对象可能会包含重复值）。这两种观点使得 Index 对象能呈现一
些有趣的功能。让我们用一个简单的整数列表来创建一个 Index 对象


+ (1). 将 Index 看作不可变数组
Index 对象的许多操作都像数组。例如，可以通过标准 Python 的取值方法获取数值，也可
以通过切片获取数值

+ (2) 将 Index 看作有序集合
Pandas 对象被设计用于实现许多操作，如连接（join）数据集，其中会涉及许多集合操作。
Index 对象遵循 Python 标准库的集合（ set ）数据结构的许多习惯用法，包括并集、交集、
差集等：

In [23]:
print(A[1])
print(A[::2])

indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

print(indA & indB) # 交集
print(indA | indB) # 并集
print(indA ^ indB) # 异或

(0, 0.)
[(0, 0.) (0, 0.)]
Int64Index([3, 5, 7], dtype='int64')


  print(indA & indB)
