<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/PDSH-cover-small.png?raw=1">

*This notebook contains an excerpt from the [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) by Jake VanderPlas; the content is available [on GitHub](https://github.com/jakevdp/PythonDataScienceHandbook).*

*The text is released under the [CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode), and code is released under the [MIT license](https://opensource.org/licenses/MIT). If you find this content useful, please consider supporting the work by [buying the book](http://shop.oreilly.com/product/0636920034919.do)!*

<!--NAVIGATION-->
< [Data Manipulation with Pandas](03.00-Introduction-to-Pandas.ipynb) | [Contents](Index.ipynb) | [Data Indexing and Selection](03.02-Data-Indexing-and-Selection.ipynb) >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/03.01-Introducing-Pandas-Objects.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>


# Pandas物件的介紹

Pandas可以想成是Numpy結構陣列的加強版，本章介紹三個Pandas基本的資料結構: ``Series``, ``DataFrame``, and ``Index``.

In [1]:
import numpy as np
import pandas as pd

## Pandas Series物件

Pandas ``Series`` 是一個被索引資料的一維陣列，可以使用一個串列或陣列來建立

In [4]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

``Series`` 包裝了包括一系列的值和一系列的索引，然後可以使用 ``values``和``index``屬性加以存取。.
 ``values``就像是我們熟悉的Numpy陣列一樣:

In [5]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

而 ``index`` 則是一個型態為 ``pd.Index``的類似陣列的物件

In [6]:
data.index

RangeIndex(start=0, stop=4, step=1)

就像是NumPy陣列，資料可以使用相關的索引透過熟悉的Python方括號符號來存取:

In [7]:
data[1]

0.5

In [8]:
data[1:3]

1    0.50
2    0.75
dtype: float64

Pandas ``Series``比它所模擬的Numpy陣列還要更具有彈性

### 使用``Series``當作一般NumPy陣列

 ``Series``物件基本上可以跟一維NumPy陣列交換使用。

最主要的不同是索引的呈現:
Numpy陣列是*隱含*是使用整數索引來存取值，而Pandas ``Series`` 則是需要*明確的定義*和值相關聯的索引。

明確指定索引定義提供了``Series``一個額外的能力。
例如，索引不必然是整數，而可以是任何想要的型態。

舉例:可以使用字串當作索引:

In [9]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

可以直接指定讀取資料:

In [10]:
data['b']

0.5

可以非連續性或不按照順序的索引:

In [11]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [12]:
data[5]

0.5

In [13]:
data[3]

0.75

### 使用Series當作特殊的字典



In [14]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135,
                   'Golden State': 9999999}
population = pd.Series(population_dict)
population

California      38332521
Texas           26448193
New York        19651127
Florida         19552860
Illinois        12882135
Golden State     9999999
dtype: int64

在預設的情況下, ``Series``的索引會從被排序過的key取出。
此時，典型的字典型態項目存取就可以被執行:

In [15]:
population['California']

38332521

In [16]:
population['Golden State']

9999999

但不像字典的是，``Series``也支援陣列形式的操作，像是切片:

In [17]:
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [18]:
population['Texas':'Florida']

Texas       26448193
New York    19651127
Florida     19552860
dtype: int64

## Pandas DataFrame物件

``DataFrame``可以想成是一般化的Numpy陣列或是Python字典的一個特例 

### 把DataFrame看做是一般化的Numpy陣列



In [20]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

在此可以使用一個字典型態來建立一個單獨的二維物件以包含這些資料:

In [21]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967.0
Florida,19552860,170312.0
Golden State,9999999,
Illinois,12882135,149995.0
New York,19651127,141297.0
Texas,26448193,695662.0


就像 ``Series``物件，``DataFrame``有一個``index``屬性可以取得索引的標籤:

In [22]:
states.index

Index(['California', 'Florida', 'Golden State', 'Illinois', 'New York',
       'Texas'],
      dtype='object')

除此之外，``DataFrame``有一個``columns``屬性,它也是一個``Index`` 物件，包括了欄標籤的資訊:

In [23]:
states.columns

Index(['population', 'area'], dtype='object')

因此，``DataFrame``可以想成是一個一般化的Numpy陣列，而陣列的列和欄都可以使用一般化的索引來存取資料。

### 把DataFrame當作是特殊的字典


In [24]:
states['area']

California      423967.0
Florida         170312.0
Golden State         NaN
Illinois        149995.0
New York        141297.0
Texas           695662.0
Name: area, dtype: float64

這裡會有一個混淆的地方:在Numpy二維陣列中, ``data[0]`` 會傳回*第一列*，而``DataFrame``的``data['col0']``則會傳回*第一欄*。

因為這個原因，雖然兩個作法都不錯，但把``DataFrame``當作是一般化的字典會比一般化的Numpy陣列會比較好

### 建構DataFrame物件

Pandas ``DataFrame``可以使用許多種方式來建立，在此列出幾個例子: 

#### 從單一個Series物件

``DataFrame``就是一堆``Series``物件，單一個``Series``可以用來建構一個單欄的``DataFrame``:

In [25]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135
Golden State,9999999


In [26]:
pd.DataFrame({'population' : population})

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135
Golden State,9999999


#### 從字典的list建立

任何字典的list都可以建構出``DataFrame``.


In [27]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


如果字典有缺少某些key, Pandas會填入``NaN`` ("not a number")

In [28]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### 從Series物件的字典建立:

``DataFrame``也可以使用``Series``物件的字典來建立:

In [30]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,population,area
California,38332521,423967.0
Florida,19552860,170312.0
Golden State,9999999,
Illinois,12882135,149995.0
New York,19651127,141297.0
Texas,26448193,695662.0


#### 從Numpy的二維陣列來建立

提供二維陣列的資料，就可以使用任意指定的列名和欄名來建立 ``DataFrame``。



In [31]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.867062,0.53407
b,0.010741,0.242838
c,0.589165,0.851819


## Pandas的Index物件



In [32]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

### 把Index當作是不可修改的陣列

``Index``物件有許多的操作和陣列一樣，可以使用Python索引符號去取得值或切片:

In [33]:
ind[1]

3

In [34]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

``Index`` 物件也有許多和Numpy陣列相似的屬性:

In [35]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


``Index``物件和NumPy陣列唯一的不同處在於: Index是不能夠被修改的，也就是說不能透過之前Numpy的方法修改元素。

這個特性的好處是當你使用多個 ``DataFrame``和多個陣列時，不用擔心粗心大意修改到資料

In [36]:
ind[1] = 0

TypeError: ignored

### 把Index當作是有序的集合


In [37]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [39]:
indA & indB  # 交集

  """Entry point for launching an IPython kernel.


Int64Index([3, 5, 7], dtype='int64')

In [40]:
indA | indB  # 聯集

  """Entry point for launching an IPython kernel.


Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

<!--NAVIGATION-->
< [Data Manipulation with Pandas](03.00-Introduction-to-Pandas.ipynb) | [Contents](Index.ipynb) | [Data Indexing and Selection](03.02-Data-Indexing-and-Selection.ipynb) >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/03.01-Introducing-Pandas-Objects.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>
