## Pandas 物件

在最基本的層面上，Pandas物件可以被認為是NumPy結構化陣列的增強版本，其中行和列用標籤而不是簡單的整數索引來標識。由此Pandas在基本資料結構之上提供了許多有用的工具，方法和功能，這三個基本的Pandas資料結構是：``Series``，``DataFrame``和``Index``。

先導入NumPy和Pandas：

In [2]:
import numpy as np
import pandas as pd

## Pandas Series物件

Pandas``Series``是索引資料的一維陣列，可以從串列或陣列創建，如下所示：

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

如下面輸出，``Series``包含了一系列值和一系列索引，我們可以使用``values``和``index``屬性來訪問。``values``就只是一個NumPy陣列，``index``則是類型為``pd.Index``的類似陣列的物件：

In [4]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [5]:
data.index

RangeIndex(start=0, stop=4, step=1)

與NumPy陣列一樣，相關索引可以通過熟悉的Python方括號表示法訪問資料：

In [6]:
data[1]

0.5

In [7]:
data[1:3]

1    0.50
2    0.75
dtype: float64

Pandas``Series``比它模仿的一維NumPy陣列更加通用和靈活。

### ``Series`` 可被看一般化的NumPy 陣列

可能看起來``Series``物件可以與一維NumPy陣列互換，其本質區別在於索引的存在：Numpy陣列有一個*隱式定義的*整數索引用於訪問值時，Pandas``Series``有一個*顯式定義的*索引與值相關聯。這個顯式索引定義為``Series``物件提供了額外的功能。 例如，索引不必是整數，但可以包含任何所需類型的值。甚至如果我們願意，我們可以使用字符串作為索引：

In [8]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

項目訪問按預期進行：

In [9]:
data['b']

0.5

我們甚至可以使用非連續或無順序的索引：

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [11]:
data[5]

0.5

### Series 可以當作特殊的字典

通過這種方式，可以將Pandas``Series`視為Python字典的特化。字典是將任意鍵映射到一組任意值的結構，而``Series``是將鍵入的鍵映射到一組鍵入值的結構。這種類型很重要：正如NumPy陣列後面的特定於類型的編譯代碼使其比某些操作的Python串列更有效，Pandas``Series``的類型信息使得它比Python字典更有效操作。
通過直接從Python字典構造一個``Series``物件，可以使``Series``-as-dictionary類比更加清晰：

In [12]:
population_dict = {'California': 39250017,
                   'Texas': 27862596,
                   'Florida': 20612439,
                   'New York': 19745289,
                   'Illinois': 12801539}
population = pd.Series(population_dict)
population

California    39250017
Texas         27862596
Florida       20612439
New York      19745289
Illinois      12801539
dtype: int64

預設情況下，將創建一個``Series``，其中索引是從排序鍵中提取的。從這裡，可以執行典型的字典式項目訪問：

In [13]:
population['California']

39250017

但是與字典不同，``Series``也支持陣列樣式的操作，例如切片：

In [14]:
population['California':'Illinois']

California    39250017
Texas         27862596
Florida       20612439
New York      19745289
Illinois      12801539
dtype: int64

### 建構Series物件
我們已經看到了從頭開始構建Pandas``Series``的幾種方法; 所有這些都是以下版本的某些版本：

``` pd.Series（data, index=index）
```
其中``index``是一個可選參數，``data``可以是許多實體之一。例如，``data``可以是串列或NumPy陣列，在這種情況下``index``預設為整數序列：

In [15]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

``data``可以是純量，或是重複填入特定的索引；``data``也可以是一個字典，其中``index``預設為排序的字典鍵；不館在每種情況下，如果會有不同的結果，最好以顯式設置索引：

In [16]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

In [17]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

In [18]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

## Pandas DataFrame物件

Pandas的``DataFrame``被認為是NumPy陣列的一般化，也可以被認為是Python字典的特化。

### DataFrame作為一般化的NumPy陣列
``DataFrame``是具有靈活劣索引和靈活行名的二維陣列的模擬，可以將“DataFrame”視為一系列對齊的``Series``物件。在這裡，“對齊”是指它們共享相同的索引。下面首先構建一個新的``Series``，列出上一節討論的五個狀態中每個狀態的區域：

In [19]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

現在我們已經將它與之前的``population``Series一起使用，我們可以使用字典來建構包含這些信息的單個二維物件：

In [20]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,39250017,423967
Florida,20612439,170312
Illinois,12801539,149995
New York,19745289,141297
Texas,27862596,695662


``DataFrame``有一個``index``屬性，可以訪問索引標籤，還有一個``columns``屬性，它是一個包含行標籤的``Index``物件：：

In [21]:
states.index

Index(['California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')

In [22]:
states.columns

Index(['population', 'area'], dtype='object')

因此，``DataFrame``可以被認為是二維NumPy陣列的一般化，其中行和列都具有用於訪問資料的通用索引。

### DataFrame作為特殊的字典

同樣，我們也可以將``DataFrame``視為字典的特化。當字典將鍵映射到值時，“DataFrame”將行名稱映射到行資料的“Series”。例如，要求``'area'``屬性返回包含我們之前看到的面積的``Series``物件：

In [23]:
states['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

注意這裡潛在的混淆點：在一個二維NumPy陣列中，``data [0]``將返回第一個*列*。 對於``DataFrame``，``data ['col0']``將返回第一個*行*。因此，最好將“DataFrame”視為通用字典而不是通用陣列，儘管兩種方式都可以看到這種情況。

### 建構DataFrame物件

Pandas``DataFrame``可以通過多種方式建構。這裡我們舉幾個例子。

#### 來自單個Series物件

``DataFrame``是``Series``物件的集合，單列``DataFrame``可以從單個``Series``建構：

In [24]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,39250017
Texas,27862596
Florida,20612439
New York,19745289
Illinois,12801539


#### 從一個字典串列

任何字典串列都可以製作成“DataFrame”。我們將使用簡單的串列推導來創建一些資料：

In [25]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


即使字典中的某些鍵丟失，Pandas也會用“NaN`”（即“非數字”）值填充它們：

In [26]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### 從Series物件的字典

正如我們之前看到的那樣，``DataFrame``也可以從``Series``物件的字典建構：

In [27]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,population,area
California,39250017,423967
Florida,20612439,170312
Illinois,12801539,149995
New York,19745289,141297
Texas,27862596,695662


#### 來自二維NumPy陣列

給定一個二維資料陣列，我們可以創建一個帶有任何指定行和索引名稱的``DataFrame``。
如果省略，將為每個使用整數索引：

In [28]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.511105,0.024971
b,0.106175,0.401511
c,0.488746,0.884107


#### 來自NumPy結構化陣列
Pandas``DataFrame``的運行方式與結構化陣列非常相似，可以直接從一個陣列創建：

In [29]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [30]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


## Pandas Index物件

我們在這裡看到``Series``和``DataFrame``物件都包含一個顯式的* index *，它允許你引用和修改數據。
這個``Index``物件可以被認為是*不可變數組*或*有序集*，舉個簡單的例子，讓我們從整數串列建構一個``Index``：

In [31]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

### 索引為不可變陣列

``Index``在很多方面都像陣列一樣運作。例如，我們可以使用標準的Python索引表示法來檢索值或切片：

In [32]:
ind[1]

3

In [33]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

``Index``物件也有許多NumPy陣列中熟悉的屬性：

In [34]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


``Index``物件和NumPy陣列之間的一個區別是索引是不可變的 - 也就是說，它們不能通過常規方式修改：

In [35]:
ind[1] = 0

TypeError: Index does not support mutable operations

這使得不變性可以更安全地共享多個``DataFrame``s和陣列之間的索引，而不用於從無意索引修改副作用的可能性。

### 索引作為有序集

Pandas物件旨在促進跨資料集的連接等操作，這取決於集合算術的許多方面。``Index``物件遵循Python內置的``set``資料結構使用的許多約定，因此可以用熟悉的方式計算聯合，交集，差異和其他組合：

In [37]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [38]:
indA & indB  # intersection

Int64Index([3, 5, 7], dtype='int64')

In [39]:
indA | indB  # union

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [40]:
indA ^ indB  # symmetric difference

Int64Index([1, 2, 9, 11], dtype='int64')