# pandas
1 pandas的資料結構  
2 pandas的資料工具  
3 規劃和整理資料  
4 分析資料更為快速  
5 pandas的數值處理方法非常類似於Numpy和Scipy  
6 pandas也是使用array處理資料  
7 numpy專門處理相同數值的array資料  
8 pandas專門處理不同資料型態的表格資料  

In [57]:
#一般我們使用pandas的語法如下
import pandas as pd

#如果要直接將Series,DataFrame載入到現在使用的命名空間
from pandas import Series, DataFrame

## pandas的資料結構
1.Series  
2.DataFrame  


## Series
- 類似一個一維的陣列(相似於numpy),但還包含了一些對應資料的符號(index)  

In [58]:
#Seriese -> 類似一個一維的陣列(相似於numpy),但還包含了一些對應資料的符號(index)
obj = pd.Series([4, 7, -5, 3])
obj

#下面左邊是index,右邊的是值.沒有特定指定索引將會採用0 ~ N-1的值(N是這資料的長度)。

0    4
1    7
2   -5
3    3
dtype: int64

In [59]:
#使用values的屬性取出numpy的ndarray
obj.values

array([ 4,  7, -5,  3])

In [60]:
#使用index屬性取出index物件
obj.index

RangeIndex(start=0, stop=4, step=1)

In [61]:
#自定Series索引的label
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [62]:
#使用index屬性取出索引物件
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [63]:
#和numpy不同是，我們可以使用索引的label取出值來
obj2['a']
# output -5

#修改值
obj2['d'] = 6

#使用list取出多個值
obj2[['c', 'a', 'd']]

c    3
a   -5
d    6
dtype: int64

In [64]:
#使用類似numpy的運算元操作
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

#使用boolean array過濾資料
obj2[obj2 > 0]

#使用和純值的運算
obj2 * 2

#使用numpy的數學函式
import numpy as np
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [65]:
#有時可以想像Series是一個固定長度,可以排序的Dictionary

obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

#使用 in 運算元
print('b' in obj2)

'e' in obj2

True


False

In [66]:
#由於類似Dictionary, 所以也可以使用Dictionary來建立Series
sdata = {'台北':35000, '桃園':71000, '台中':16000, '高雄':5000}
obj3 = pd.Series(sdata)
obj3

台北    35000
桃園    71000
台中    16000
高雄     5000
dtype: int64

In [67]:
#使用 index 引數名稱,排序資料
sdata = {'台北':35000, '桃園':71000, '台中':16000, '高雄':5000}
states = ['花蓮','高雄', '台中', '台北']
obj4 = pd.Series(sdata, index=states)
obj4

花蓮        NaN
高雄     5000.0
台中    16000.0
台北    35000.0
dtype: float64

In [68]:
#使用pd的isnull()和notnull()functions
print(pd.isnull(obj4))

print(pd.notnull(obj4))

#使用Series的method()
obj4.isnull()

花蓮     True
高雄    False
台中    False
台北    False
dtype: bool
花蓮    False
高雄     True
台中     True
台北     True
dtype: bool


花蓮     True
高雄    False
台中    False
台北    False
dtype: bool

In [69]:
#2個Series在做數學運算時,會依照索引來做運算

sdata = {'台北':35000, '桃園':71000, '台中':16000, '高雄':5000}
obj3 = pd.Series(sdata)
print(obj3)
sdata = {'台北':35000, '桃園':71000, '台中':16000, '高雄':5000}
states = ['花蓮','高雄', '台中', '台北']
obj4 = pd.Series(sdata, index=states)
print(obj4)

#NaN + 值會得到NaN
obj3 + obj4

台北    35000
桃園    71000
台中    16000
高雄     5000
dtype: int64
花蓮        NaN
高雄     5000.0
台中    16000.0
台北    35000.0
dtype: float64


台中    32000.0
台北    70000.0
桃園        NaN
花蓮        NaN
高雄    10000.0
dtype: float64

In [70]:
#Series物件和Series有各自的name屬性
sdata = {'台北':35000, '桃園':71000, '台中':16000, '高雄':5000}
states = ['花蓮','高雄', '台中', '台北']
obj4 = pd.Series(sdata, index=states)

obj4.name = '縣市人口'
obj4.index.name = '縣市'
obj4

縣市
花蓮        NaN
高雄     5000.0
台中    16000.0
台北    35000.0
Name: 縣市人口, dtype: float64

In [71]:
#Series物件可以被更換的
obj = pd.Series([4, 7, -5, 3])
print(obj)
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

0    4
1    7
2   -5
3    3
dtype: int64


Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

## DataFrame
- DataFrame可以展示表格資料  
- DataFrame有columns,每個column可以有不同的資料型態(數值,字串,布林)  
- DataFrame有2個index,一個是row的index,一個是column的index  
- 可以想像很多有相同index的Series,組成DataFrame,每個Series有自已的column index  

In [72]:
#有非常多種方式可以建立DataFrame,最常用的是Dictionary,然後key當作column的索引,list當作value
data = {
    '縣市': ['台北','台北','台北', '新竹', '新竹', '新竹'],
    '年份': [2000, 2001, 2002, 2001, 2002, 2003],
    '人口': [2.2, 2.5, 2.7, 1.1, 1.5, 2.0]
}

frame = pd.DataFrame(data)
frame

#會自動產生row的index

Unnamed: 0,縣市,年份,人口
0,台北,2000,2.2
1,台北,2001,2.5
2,台北,2002,2.7
3,新竹,2001,1.1
4,新竹,2002,1.5
5,新竹,2003,2.0


In [73]:
#有時資料會非常多,如果要只看前面幾筆,可以使用head()方法,只顯示前面幾筆
#head()
frame.head()


Unnamed: 0,縣市,年份,人口
0,台北,2000,2.2
1,台北,2001,2.5
2,台北,2002,2.7
3,新竹,2001,1.1
4,新竹,2002,1.5


In [74]:
#如果指定引數名稱columns,則DataFrame欄位名稱將依照columns的順序排列
data = {
    '縣市': ['台北','台北','台北', '新竹', '新竹', '新竹'],
    '年份': [2000, 2001, 2002, 2001, 2002, 2003],
    '人口': [2.2, 2.5, 2.7, 1.1, 1.5, 2.0]
}

pd.DataFrame(data, columns=['年份','人口', '縣市'])

Unnamed: 0,年份,人口,縣市
0,2000,2.2,台北
1,2001,2.5,台北
2,2002,2.7,台北
3,2001,1.1,新竹
4,2002,1.5,新竹
5,2003,2.0,新竹


In [75]:
#如果傳遞的columns,沒有包含在data的key內,則會產生遺失的value
data = {
    '縣市': ['台北','台北','台北', '新竹', '新竹', '新竹'],
    '年份': [2000, 2001, 2002, 2001, 2002, 2003],
    '人口': [2.2, 2.5, 2.7, 1.1, 1.5, 2.0]
}

frame2 = pd.DataFrame(data, columns=['年份', '縣市', '人口', '負債'], index=['one', 'two', 'three', 'foru', 'five', 'six'])
print(frame2)

#使用columns屬性,取出columns的索引
print('----------------------------')
print(frame2.columns)

#可以取出DataFrame的一個欄位,將會傳出Series
frame2['縣市']

#也可以屬性的方式,取出column
print('----------------------------')
frame2.人口

#frame2['縣市']語法可以有不同的語法
#frame2.人口 點的語法,只有一個功能,取出人口欄位
#取出的Series的name屬性會使用欄位名稱


         年份  縣市   人口   負債
one    2000  台北  2.2  NaN
two    2001  台北  2.5  NaN
three  2002  台北  2.7  NaN
foru   2001  新竹  1.1  NaN
five   2002  新竹  1.5  NaN
six    2003  新竹  2.0  NaN
----------------------------
Index(['年份', '縣市', '人口', '負債'], dtype='object')
----------------------------


one      2.2
two      2.5
three    2.7
foru     1.1
five     1.5
six      2.0
Name: 人口, dtype: float64

In [76]:
#可以使用loc的屬性,傳入位置或索引名稱取出rows
data = {
    '縣市': ['台北','台北','台北', '新竹', '新竹', '新竹'],
    '年份': [2000, 2001, 2002, 2001, 2002, 2003],
    '人口': [2.2, 2.5, 2.7, 1.1, 1.5, 2.0]
}

frame2 = pd.DataFrame(data, columns=['年份', '縣市', '人口', '負債'], index=['one', 'two', 'three', 'four', 'five', 'six'])
print(frame2)
print('-----------------')
frame2.loc['three']


         年份  縣市   人口   負債
one    2000  台北  2.2  NaN
two    2001  台北  2.5  NaN
three  2002  台北  2.7  NaN
four   2001  新竹  1.1  NaN
five   2002  新竹  1.5  NaN
six    2003  新竹  2.0  NaN
-----------------


年份    2002
縣市      台北
人口     2.7
負債     NaN
Name: three, dtype: object

In [77]:
#可以使用指定運算子,改變裏面的值
frame2['負債'] = 16.5
print(frame2)
print('---------------------------')

frame2['負債'] = np.arange(6.)
print(frame2)

         年份  縣市   人口    負債
one    2000  台北  2.2  16.5
two    2001  台北  2.5  16.5
three  2002  台北  2.7  16.5
four   2001  新竹  1.1  16.5
five   2002  新竹  1.5  16.5
six    2003  新竹  2.0  16.5
---------------------------
         年份  縣市   人口   負債
one    2000  台北  2.2  0.0
two    2001  台北  2.5  1.0
three  2002  台北  2.7  2.0
four   2001  新竹  1.1  3.0
five   2002  新竹  1.5  4.0
six    2003  新竹  2.0  5.0


In [78]:
#當指定是list或array給欄位時,長度必需要和DataFrame欄位的長度一樣
#如果指定的是Series,Series的索引會對應DataFrame欄位的索引,如果是DataFrame沒有的索引,則會自動補上NaN的值
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['負債'] = val
frame2

Unnamed: 0,年份,縣市,人口,負債
one,2000,台北,2.2,
two,2001,台北,2.5,-1.2
three,2002,台北,2.7,
four,2001,新竹,1.1,-1.5
five,2002,新竹,1.5,-1.7
six,2003,新竹,2.0,


In [79]:
#如果指定的欄位名稱是沒有出現過的,則代表新增一個欄位

frame2['新開發區'] = frame2.縣市 == '新竹'
frame2

#注意新增不可以使用點運算子的方法. frame2.新開發區 = xxxx

Unnamed: 0,年份,縣市,人口,負債,新開發區
one,2000,台北,2.2,,False
two,2001,台北,2.5,-1.2,False
three,2002,台北,2.7,,False
four,2001,新竹,1.1,-1.5,True
five,2002,新竹,1.5,-1.7,True
six,2003,新竹,2.0,,True


In [80]:
# del運算子,可以刪除欄位,操作方式和dictionary
del frame2['新開發區']
frame2

Unnamed: 0,年份,縣市,人口,負債
one,2000,台北,2.2,
two,2001,台北,2.5,-1.2
three,2002,台北,2.7,
four,2001,新竹,1.1,-1.5
five,2002,新竹,1.5,-1.7
six,2003,新竹,2.0,


In [82]:
#注意[索引]方式,取出的Columns是個View,而不是copy一份出來,如果是要取出是獨立的一份,請使用Series的copy()方法
copyFrame = frame2['人口'].copy()
copyFrame['one'] = 3.0
print(copyFrame)
frame2

one      3.0
two      2.5
three    2.7
four     1.1
five     1.5
six      2.0
Name: 人口, dtype: float64


Unnamed: 0,年份,縣市,人口,負債
one,2000,台北,2.2,
two,2001,台北,2.5,-1.2
three,2002,台北,2.7,
four,2001,新竹,1.1,-1.5
five,2002,新竹,1.5,-1.7
six,2003,新竹,2.0,


In [84]:
#另一種常見方式是建立巢狀的Dictionary
#如果使用巢狀的Dictionary,外面的key當作Column的索引,裏面的key當作row的索引
pop = {'台北':{2001:2.4, 2002:2.9},
      '高雄':{2000:1.5, 2001:1.7, 2002:3.6}}
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,台北,高雄
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [91]:
#可以調換欄和列的位置,使用和numpy一樣的語法
frame4 = frame3.T
frame4

Unnamed: 0,2001,2002,2000
台北,2.4,2.9,
高雄,1.7,3.6,1.5


In [92]:
#指定特定的columns可以重新排序新的位置
frame4.columns = [2000 ,2001, 2002]
print(frame4)
print('--------------')

#也可以在建立時就使用引數名稱index直接排序
pop = {'台北':{2001:2.4, 2002:2.9},
      '高雄':{2000:1.5, 2001:1.7, 2002:3.6}}
frame3 = pd.DataFrame(pop, index=[2001, 2002, 2003])
frame3

    2000  2001  2002
台北   2.4   2.9   NaN
高雄   1.7   3.6   1.5
--------------


Unnamed: 0,台北,高雄
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [93]:
#可以使用name屬設定DataFrame的欄位名稱和索引名稱
frame3.index.name = "年份"
frame3.columns.name = "縣市"
frame3

縣市,台北,高雄
年份,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [94]:
#使用values屬性取出ndArray
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, nan]])

## pandas和Series 的 Index物件
- index物件將對應到matpoltlib圖表的軸  
- 如果要以圖表顯示,必需注意到column和index內所儲存的值  

In [97]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
print(index)
print('--------')
index[1:]

Index(['a', 'b', 'c'], dtype='object')
--------


Index(['b', 'c'], dtype='object')

In [None]:
#index是不可變的內容
index[1] = 'd'