# 3.1 安装并使用pandas

In [2]:
import pandas as pd
import numpy as np

# 3.2 pandas对象简介
Pandas的基本数据结构分为以下三类：Series、DataFrame和Index。

## 3.2.1 Pandas的Series对象
Pandas的Series对象是一个带索引数据构成的一维数组，可用一个数组创建Series对象，如下所示：

In [3]:
data =pd.Series([0.25,0.5,0.75,1])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Series对象将一组数据和一组索引绑定在一起，我们可以通过values和index属性获取数据。values是一个与Numpy数组类似。

In [4]:
print(data.values)
print(type(data.values))

[0.25 0.5  0.75 1.  ]
<class 'numpy.ndarray'>


index属性返回的是一个类型为pd.index的类数组对象。

In [7]:
data.index

RangeIndex(start=0, stop=4, step=1)

和Numpy数组一样，数据可以通过Python的括号索引标签获取：

In [8]:
data[1]

0.5

In [9]:
data[1:3]

1    0.50
2    0.75
dtype: float64

但是我们将看到，Series对象比其模仿的Numpy数据更加通用，灵活。

### 1. Series是通用的Numpy数组

到目前未知，我们可能觉得Series对象和一维Numpy数组基本可以等价交换。但两者的本质差异其实是索引：Numpy通过**隐式定义的**整数索引获取数值，
而Pandas的Series对象用一种**显式定义的**索引与数值关联。

显示索引的而定义让Series对象拥有了更强的能力。例如，索引不再仅仅是整数，还可以是任意想要的类型。如果可以，完全能够用字符串定义索引：

In [12]:
data = pd.Series([0.25,0.5,0.75,1.0],index=['a','b','c','d'])

In [13]:
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [14]:
data['b']

0.5

In [15]:
data[1]

  data[1]


0.5

也可以使用不按照顺序的整数索引

In [19]:
data = pd.Series([0.25,0.5,0.75,1.0],index=[2,5,3,7])

In [20]:
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [21]:
data[5]

0.5

### Series是特殊的字典
你可以把Series对象看作一种特殊的Python字典。字典是将一种任意键映射到一组任意值的数据结构，而Series对象是一种将类型键映射到一组类型值的数组结构。


类型至关重要，索引和数值各自保持为统一类型使得Series比字典更加高效。

In [23]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York':19651127,
                   'Florida':19552860,
                   'Illinois':12882135
}
population=pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

注意，用字典创建Series对象时候，其索引是按照字典内索引顺序排列的（**和书中写得不同**）。典型的字典数值获取方式仍然有效：

In [25]:
population['California']

38332521

In [28]:
population['California':'New York']

California    38332521
Texas         26448193
New York      19651127
dtype: int64

### 创建Series对象
我们已经见过几种创建Series对象的方法，都是像这样的形式：

`pd.Series(data, index=index)`

其中，index是一个可选参数，data参数支持多种数据类型。

例如，data可以是列表或者Numpy数组，这时index值默认为整数序列：

In [29]:
pd.Series([2,4,6])

0    2
1    4
2    6
dtype: int64

data也可以是一个标量，创建的Series对象会重复填充到每个索引上：

In [30]:
pd.Series(5,index=[10,12,14])

10    5
12    5
14    5
dtype: int64

data可以是一个字典，index的默认排序是排序的字典键:

In [32]:
pd.Series({2:'a',1:'b',3:'c'})

2    a
1    b
3    c
dtype: object

可以通过显示指定索引来筛选需要的结果，pandas只会保留显示指定的索引键值对。

In [35]:
pd.Series({2:'a',1:'b',3:'c'},index=[3,2])

3    c
2    a
dtype: object

## 3.2.2 Pandas的DataFrame对象
和Series对象一样，DataFrame既可以作为通用型的Numpy数组，也可以看作特殊的Python字典。

### 1.DataFrame是通用的Numpy数组
DataFrame是既有灵活的行索引，又有灵活列名的二维数组。你也可以把DataFrame看成是有序排列的若干Series对象，这里的排列是指它们有共同的索引。

area_dict = {'California':423967,'Texas':695662,'New York':141297,
             'Florida':170312,'Illinois':149995}
area = pd.Series(area_dict)
area

In [37]:
#结合之前创建的population Series对象，用一个字典创建包含这些信息的二维对象
states = pd.DataFrame({'population':population,
                      'area':area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


和Series对象一样，DataFrame也有一个index属性可以获取索引标签：

In [38]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

Dataframe还有一个columns属性，是存放列标签的Index对象：

In [40]:
states.columns

Index(['population', 'area'], dtype='object')

### 2. DataFrame是特殊的字典
与Series类似，我们也可以把DataFrame看成一种特殊的字典，字典是一个键映射一个值，而DataFrame是一列映射一个Series数据。例如，通过'area'的列
属性可以返回包含面积数据的Series对象：

In [42]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

需要特别注意的事情是，Numpy数组`data[0]`会返回第一行，而dataframe会直接报错。因此，最好把DataFrame看成一种二维字典。

### 3. 创建DataFrame对象
Pandas的DataFrame对象可以通过许多方式创建,这里举几个常用的例子。

#### (1) 通过单个Series对象创建
还是以population和area为例，可以创建如下的dataframe

In [47]:
# 单列
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [49]:
# 多列
pd.DataFrame(population,area, columns=['population','area'])

ValueError: Shape of passed values is (5, 1), indices imply (5, 2)

多列无论怎么写都会失效，看来还是别这么写了。

#### (2) 通过字典-列表/列表-字典创建
任何元素是字典的列表都可以变成DataFrame。用一个简单的列表来创建一些数据：

In [50]:
data = [{'a':i, 'b':2*i} for i in range(3)]
data

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]

In [51]:
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


那么值是列表的字典能不能得到dataframe呢？

In [53]:
dict = {'Odd':[x for x in range(1,10,2)],
       'Even':[x for x in range(2,12,2)]}
dict

{'Odd': [1, 3, 5, 7, 9], 'Even': [2, 4, 6, 8, 10]}

In [54]:
pd.DataFrame(dict)

Unnamed: 0,Odd,Even
0,1,2
1,3,4
2,5,6
3,7,8
4,9,10


也是可以的！创建DataFrame的底层逻辑就是**你输入的数据结构需要提供列索引。**

#### (3) 通过Series对象字典创建
和利用值是列表的字典创建逻辑差不多。

In [55]:
pd.DataFrame({'population':population,
             'area':area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


#### (4) 通过NumPy二维数组创建
假如有一个二维数组，就可以创建一个指定行列索引的DataFrame。如果不指定行列索引值，那么默认都是整数索引值。

In [56]:
pd.DataFrame(np.random.rand(3,2),
            columns=['foo','bar'],
            index=['a','b','c'])

Unnamed: 0,foo,bar
a,0.044145,0.635066
b,0.406937,0.236399
c,0.345193,0.343252


#### (5) 通过NumPy结构化数组创建。
由于Pandas的DataFrame与结构化数组十分相似，因此可以通过结构化数组创建DataFrame：

In [57]:
A = np.zeros(3,dtype=[('A','i8'),('B','f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [58]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


## 3.2.3 Pandas的Index对象
Pandas的Series和DataFrame对象都使用便于引用和调整的**显式索引**，Pandas的Index对象是一个很有趣的数据结构，可以将它看作是一个
**不可变数组**或者**有序集合**（实际上是一个多集，因为Index对象可能包含重复值）。让我们来看一下Index对象：

In [5]:
import pandas as pd
ind = pd.Index([2,3,5,7,11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

#### 1. 将Index看作不可变数组
Index对象有许多对象都像数组，可以通过标准的索引方法和切片操作取值。

In [6]:
ind[2]

5

In [7]:
ind[::2]

Index([2, 5, 11], dtype='int64')

Index还有许多与Numpy数组相似的属性：

In [8]:
print(ind.size,ind.shape,ind.ndim,ind.dtype)

5 (5,) 1 int64


与一般数组不同，Index对象的索引是不可变的。赋值操作会被判错：

In [10]:
ind[1]=0

TypeError: Index does not support mutable operations

### 2.将Index看作有序集合
Index对象遵循Python标准库的集合（Set）数据结构的许多习惯用法，包括交集、并集和差集：

In [15]:
indA = pd.Index([1,3,5,7,9])
indB = pd.Index([2,3,5,7,11])
print(indA)
print(indB)

Index([1, 3, 5, 7, 9], dtype='int64')
Index([2, 3, 5, 7, 11], dtype='int64')


In [16]:
indA & indB

Index([0, 3, 5, 7, 9], dtype='int64')

In [17]:
indA | indB

Index([3, 3, 5, 7, 11], dtype='int64')

In [18]:
indA ^ indB

Index([3, 0, 0, 0, 2], dtype='int64')

奇怪……