# Pandas介紹

在本節課程中，我們將學習如何使用pandas進行資料分析。你可以把pandas看成是一個極其強大的Excel版本，有著更多的功能。在本節課程中，你應該按照這樣的順序流覽notebook教材

* Introduction to Pandas
* Series
* DataFrames
* Missing Data
* GroupBy
* Merging,Joining,and Concatenating
* Operations
* Data Input and Output

# Series

我們將學習的第一個pandas的主要資料類型是Series資料類型。讓我們導入Pandas並探索Series物件。

Series與NumPy陣列非常相似(事實上，它是建立在NumPy陣列物件之上)。NumPy陣列與Series的區別在於，Series可以有軸標籤，這意味著它可以通過標籤進行索引，而不僅僅是一個索引位置。Series也不僅只限包含數值資料，而是任何Python物件。

讓我們通過一些例子來探討這個概念。


In [1]:
import numpy as np
import pandas as pd

## 創建一個Series

你可以將一個**list**、**numpy array**、或 **dictionary**轉換為一個Series:

In [2]:
labels = ['a','b','c']
my_list = [10,20,30]
arr = np.array([10,20,30])
d = {'a':10,'b':20,'c':30}

### 使用 Lists

In [3]:
my_list = [10,20,30]
my_list

[10, 20, 30]

In [4]:
pd.Series(data=my_list)

#(最左列的部分)如果沒有給定標籤，就會依照 List的索引位置顯示

0    10
1    20
2    30
dtype: int64

In [5]:
labels = ['a','b','c']
pd.Series(data=my_list,index=labels)

a    10
b    20
c    30
dtype: int64

In [6]:
pd.Series(my_list,labels)

a    10
b    20
c    30
dtype: int64

### 使用NumPy Arrays

如果資料是一個ndarray，那麼傳遞的索引必須是相同的長度。如果沒有傳遞索引，那麼預設索引將是range(n)，其中n是陣列長度，即[0,1,2,3.... range(len(array))-1]。

In [3]:
arr = np.array([10,20,30])
arr

array([10, 20, 30])

In [4]:
pd.Series(arr)

0    10
1    20
2    30
dtype: int32

我們沒有傳遞任何索引，所以預設情況下，它分配的索引範圍從0到len(data)-1，即0到2。

In [15]:
labels = ['a','b','c']
# labels = ['a','b','c','d']
d = pd.Series(arr,labels)
d

a    10
b    20
c    30
dtype: int32

In [7]:
labels = ['a','b','c','d']
d = pd.Series(arr,labels)
d

#如果給定的標籤數量與資料(如:元素)數量不同，會出現錯誤訊息

ValueError: Length of passed values is 3, index implies 4.

我們在這裡傳遞了索引值。現在我們可以在輸出中看到自訂的索引值。

### 使用Dictionary

可以傳遞一個dict作為輸入，如果沒有指定索引，那麼就按照排序的順序抽取字典中的鍵來構建索引。如果傳遞了索引，那麼與索引中的標籤相對應的資料中的值將被拉出。

In [16]:
d = {'a':10,'b':20,'c':30}
d

{'a': 10, 'b': 20, 'c': 30}

In [17]:
pd.Series(d)

a    10
b    20
c    30
dtype: int64

字典鍵被用來構建索引

In [18]:
pd.Series(d,index=['b','c','d','a']) # ['a','c','b','d']

b    20.0
c    30.0
d     NaN
a    10.0
dtype: float64

索引順序被保留，缺失的元素被填充為NaN(Not a Number)


### 從純量(Scalar)創建Series

如果資料是一個標量值，必須提供一個索引。該值將被重複，以符合索引的長度

In [19]:
pd.Series(5, index=['b','c','d','a'])

b    5
c    5
d    5
a    5
dtype: int64

### 中的資料

pandas的Series可以容納多種類型的物件：

In [8]:
labels = ['a','b','c'] #將標籤設定為資料內容
pd.Series(data=labels)

0    a
1    b
2    c
dtype: object

In [9]:
# Even functions (although unlikely that you will use this)
pd.Series([sum,print,len])

0      <built-in function sum>
1    <built-in function print>
2      <built-in function len>
dtype: object

### 由Series位置索引資料

Series中的資料可以**ndarray**的索引方式取得

In [11]:
ser = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
ser

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [21]:
ser[0]

1

檢索Series中的前三個元素。如果在它前面插入一個:，那麼從該索引之前的所有元素都將被提取。如果使用兩個參數（中間有:），則兩個索引之間的元素（不包括終止值）

In [12]:
ser[:3]

a    1
b    2
c    3
dtype: int64

Retrieve the last three elements.

In [13]:
ser[-3:]

c    3
d    4
e    5
dtype: int64

In [14]:
ser[[0,2,4]] #用 List的方式，取回索引位置0, 2, 4的資料

a    1
c    3
e    5
dtype: int64

### 使用標籤(Index)索引資料

一個Series就像一個固定大小的**字典**，你可以通過索引標籤獲得和設定數值。

In [22]:
ser = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
ser

a    1
b    2
c    3
d    4
e    5
dtype: int64

Retrieve a single element using index label value.

In [23]:
ser["c"]

3

Retrieve multiple elements using a list of index label values.

In [24]:
ser[["a","c","d"]]

a    1
c    3
d    4
dtype: int64

If a label is not contained, an exception is raised.

In [25]:
ser["f"] #錯誤訊息: 沒有"f"這個標籤的資料

KeyError: 'f'

## 使用索引
使用一個Series的關鍵是理解它的索引方式。Pandas利用這些索引名稱或位置，允許快速查詢資訊（工作原理類似於hash table或字典）。

讓我們看看如何從系列中獲取資訊的一些例子。讓我們創建兩個系列，Ser1和Ser2。


In [15]:
ser1 = pd.Series([1,2,3,4],index = ['USA', 'Germany','USSR', 'Japan']) 
ser1

USA        1
Germany    2
USSR       3
Japan      4
dtype: int64

In [16]:
ser2 = pd.Series([1,2,5,4],index = ['USA', 'Germany','Italy', 'Japan'])     
ser2

USA        1
Germany    2
Italy      5
Japan      4
dtype: int64

In [17]:
ser1['USA']

1

Operations are then also done based off of index:

In [29]:
ser1 + ser2 
#重複國家的資料會被相加
#而沒有重複的無法相加! 因為不存在於兩個 Series

Germany    4.0
Italy      NaN
Japan      8.0
USA        2.0
USSR       NaN
dtype: float64

Let's stop here for now and move on to DataFrames, which will expand on the concept of Series!
# Great Job!