#NumPy

- 建立陣列
- numpy 屬性與方法
- numpy 中的計算 ufuncs(universal functions)
- 聚合操作
- Broadcasting 
- 比較、遮罩、布林邏輯
- Fancy索引
- 排序陣列


In [2]:
import numpy as np

##建立陣列
- 利用python list 建立陣列
- numpy內建函數建立陣列

### 利用python list 建立陣列

In [3]:
np_list=np.array([9,7,6,4,3,1,0])#利用python list 建立陣列
print(np_list)
np_list=np.array([3.14,0,1,2,3,4])#numpy array會自動轉型為相同資料型態
print(np_list.dtype)
np_list=np.array([3.14,1,2,3,4,5],dtype="int64")#也可以在建立時明確表明型態
print(np_list)
np_list=np.array([range(i,i+2) for i in [1,2,3]])#可以直接建立2維陣列
print(np_list)

[9 7 6 4 3 1 0]
float64
[3 1 2 3 4 5]
[[1 2]
 [2 3]
 [3 4]]


### numpy內建函數建立陣列

In [4]:
np.zeros(10,dtype="int")

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [5]:
np.ones((3,5),dtype="float")

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [6]:
np.full((3,5),3.14159625)

array([[3.14159625, 3.14159625, 3.14159625, 3.14159625, 3.14159625],
       [3.14159625, 3.14159625, 3.14159625, 3.14159625, 3.14159625],
       [3.14159625, 3.14159625, 3.14159625, 3.14159625, 3.14159625]])

In [7]:
np.arange(0,20,2)#類似python的range()

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [8]:
np.linspace(0,1,20)#(開始，結束，幾等分)

array([0.        , 0.05263158, 0.10526316, 0.15789474, 0.21052632,
       0.26315789, 0.31578947, 0.36842105, 0.42105263, 0.47368421,
       0.52631579, 0.57894737, 0.63157895, 0.68421053, 0.73684211,
       0.78947368, 0.84210526, 0.89473684, 0.94736842, 1.        ])

In [9]:
np.random.random((3,3))#亂數產生array參數為shape

array([[0.76733684, 0.88676617, 0.24485974],
       [0.86622493, 0.00840011, 0.12055204],
       [0.04423688, 0.35230106, 0.30698703]])

In [10]:
np.random.normal(0,1,(3,3))#(平均，標準差，shape)

array([[-0.0631329 , -1.19281446,  1.18554239],
       [ 0.64656353,  2.05008159,  0.67767418],
       [ 0.10560324,  0.6467872 ,  0.01454955]])

In [11]:
np.random.randint(0,10,(3,3))#0-10的整數取亂數

array([[4, 6, 0],
       [8, 5, 8],
       [3, 0, 0]])

In [12]:
np.eye(3)#建立3X3的單位矩陣

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [13]:
np.empty(3)#建立空矩陣，參數是shap

array([1., 1., 1.])

## numpy 屬性與方法
- numpy 屬性
- numpy 索引
- numpy 切片
- numpy 重塑
- numpy 串接與分割


### numpy 屬性

In [14]:
np_3dlist=np.random.randint(0,10,(3,4,5))
np_3dlist
print('ndim=',np_3dlist.ndim)#維度
print('shape=',np_3dlist.shape)#各個維度大小
print('size=',np_3dlist.size)#總尺寸
print('dtype=',np_3dlist.dtype)#資料型態
print('itemsize=',np_3dlist.itemsize)#元素大小
print('nbytes=',np_3dlist.nbytes)#整個陣列大小

ndim= 3
shape= (3, 4, 5)
size= 60
dtype= int64
itemsize= 8
nbytes= 480


### numpy 索引

與python list 大同小異

In [15]:
np_list=np.array([1,3,4,6,7,9])
print(np_list[0])
print(np_list[3])
print(np_list[-1])
np_list=np.random.randint(0,10,(3,4))
print(np_list)
print(np_list[0,1])
np_list[0,1]=999
print(np_list)

1
6
9
[[2 2 7 1]
 [7 9 6 4]
 [2 6 5 5]]
2
[[  2 999   7   1]
 [  7   9   6   4]
 [  2   6   5   5]]


### numpy 切片

同python 切片
``` python
x[start:stop:step]
```

In [16]:
np_list = np.arange(1,40,4)
print(np_list)
print(np_list[:3])
print(np_list[3:])
print(np_list[3:-1:2])
print(np_list[::-1])#反向列應

[ 1  5  9 13 17 21 25 29 33 37]
[1 5 9]
[13 17 21 25 29 33 37]
[13 21 29]
[37 33 29 25 21 17 13  9  5  1]


In [17]:
np_list = np.random.random((3,4))
print(np_list)
print(np_list[0,0])
print(np_list[:,0])
print(np_list[:2,:2])
print(np_list[0])#同倒於print(np_list[0,:])

[[0.61190572 0.6817691  0.64845819 0.20534399]
 [0.0515286  0.06207259 0.11744791 0.07863064]
 [0.61490288 0.37255629 0.67209707 0.6898981 ]]
0.6119057188358957
[0.61190572 0.0515286  0.61490288]
[[0.61190572 0.6817691 ]
 [0.0515286  0.06207259]]
[0.61190572 0.6817691  0.64845819 0.20534399]


In [18]:
#numpy切片並不是複製，因此改動其元素會影響原本陣列
np_list = np.arange(0,20,1)
print(np_list)
np_list2=np_list
np_list2[0:9]=999
print(np_list)
np_list = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(np_list)
np_list2=np_list
np_list2[:2,:2]=999
print(np_list)
#倘若需要複製可以利用copy方法
np_list = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(np_list)
np_list2=np_list.copy()
np_list2[:2,:2]=999
print(np_list)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
[999 999 999 999 999 999 999 999 999   9  10  11  12  13  14  15  16  17
  18  19]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[999 999   3]
 [999 999   6]
 [  7   8   9]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


### numpy 重塑
主要有兩種方法
- reshape() 
- newaxis

In [19]:
#reshape() 將原本的shape變更為新的shape
np_list=np.arange(1,10)
print(np_list)
np_list=np.arange(1,10).reshape(3,3)#注意重塑的元素總數必須與原來的元素總數相等
print(np_list)
#newaxis [np.newaxis,:] 將原本的一維陣列放入一個二維陣列中
np_list=np.arange(0,10)
print(np_list)
np_list=np_list[:,np.newaxis]
print(np_list)
print(np_list.shape)
np_list=np.arange(0,10)
print(np_list)
print(np_list.reshape(10,1))#reshape也可以完成同樣的工作

[1 2 3 4 5 6 7 8 9]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[0 1 2 3 4 5 6 7 8 9]
[[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]
(10, 1)
[0 1 2 3 4 5 6 7 8 9]
[[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]


### numpy 串接與分割
- 串接
 - np.concatenate
 - np.vstack
 - np.hstack
- 分割
 - np.split
 - np.hsplit
 - np.vsplit

In [20]:
#np.concatenate
np_list1=np.array([1,2,3])
np_list2=np.array([4,5,6])
print(np.concatenate([np_list1,np_list2]))
print(np.concatenate([np_list1,np_list2,np_list1]))
np_list1=np.array([[1,2,3],[4,5,6]])
np_list2=np.array([[9,8,7],[6,5,4]])
print(np.concatenate([np_list1,np_list2]))
print(np.concatenate([np_list1,np_list2],axis=1))#可以利用axis指定要串接的軸

[1 2 3 4 5 6]
[1 2 3 4 5 6 1 2 3]
[[1 2 3]
 [4 5 6]
 [9 8 7]
 [6 5 4]]
[[1 2 3 9 8 7]
 [4 5 6 6 5 4]]


In [21]:
#vstack,hstack
np_list1=np.array([1,2,3])
np_list2=np.array([[9,8,7],[6,5,4]])
print(np.vstack([np_list1,np_list2]))
np_list1=np.array([[1,2,3],[4,5,6]])
np_list2=np.array([[9,8,7],[6,5,4]])
print(np.hstack([np_list1,np_list2]))


[[1 2 3]
 [9 8 7]
 [6 5 4]]
[[1 2 3 9 8 7]
 [4 5 6 6 5 4]]


In [22]:
#split
np_list=np.array([1,2,3,4,5,6,7,8,9])
x1,x2,x3=np.split(np_list,[2,7])#指定切斷的位置
print(x1,x2,x3)
#vsplit,hsplit
np_list=np.arange(0,36).reshape(6,6)
print(np_list)
up,down=np.vsplit(np_list,[2])
print(up,down)
left,right=np.hsplit(np_list,[3])
print(left,right)

[1 2] [3 4 5 6 7] [8 9]
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]
 [24 25 26 27 28 29]
 [30 31 32 33 34 35]]
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]] [[12 13 14 15 16 17]
 [18 19 20 21 22 23]
 [24 25 26 27 28 29]
 [30 31 32 33 34 35]]
[[ 0  1  2]
 [ 6  7  8]
 [12 13 14]
 [18 19 20]
 [24 25 26]
 [30 31 32]] [[ 3  4  5]
 [ 9 10 11]
 [15 16 17]
 [21 22 23]
 [27 28 29]
 [33 34 35]]


## numpy 中的計算 ufuncs(universal functions)

numpy中的ufuncs使用向量化的操作，可以在資料很大的情況下有較好的效能表現

- 基本運算
- 進階ufuncs函數


### 基本運算
- np.add + 加
- np.subtract - 減
- np.negative - 負數
- np.multiply * 乘
- np.divide / 除
- np.floor_divide // 商
- np.power ** 指數
- np.mod % 餘
- np.abs 絕對值
- np.sin 三角函數

In [23]:
np_list=np.arange(10,dtype="float")
print(np_list+3)
print(np_list-3)
print(-np_list)
print(np_list*3)
print(np_list/3)
print(np_list//3)
print(np_list**3)
print(np_list%3)
print(abs(np_list-3))

[ 3.  4.  5.  6.  7.  8.  9. 10. 11. 12.]
[-3. -2. -1.  0.  1.  2.  3.  4.  5.  6.]
[-0. -1. -2. -3. -4. -5. -6. -7. -8. -9.]
[ 0.  3.  6.  9. 12. 15. 18. 21. 24. 27.]
[0.         0.33333333 0.66666667 1.         1.33333333 1.66666667
 2.         2.33333333 2.66666667 3.        ]
[-0.  0.  0.  1.  1.  1.  2.  2.  2.  3.]
[  0.   1.   8.  27.  64. 125. 216. 343. 512. 729.]
[0. 1. 2. 0. 1. 2. 0. 1. 2. 0.]
[3. 2. 1. 0. 1. 2. 3. 4. 5. 6.]


### 進階ufuncs函數
- 設定輸出
- 聚合
- 外積

In [24]:
#設定輸出
np_list=np.arange(5)
ans=np.zeros(5)
np.add(np_list,5,out=ans)#利用out設定輸出 同 ans=np.add(np_list,5)但速度比較快
print(ans)
ans=np.zeros(12)
np.add(np_list,5,out=ans[2::2])#亦可搭配切片
print(ans)

[5. 6. 7. 8. 9.]
[0. 0. 5. 0. 6. 0. 7. 0. 8. 0. 9. 0.]


In [25]:
#聚合
np_list=np.arange(1,10)
print(np.add.reduce(np_list))#reduce函數可以逐步套用ufuncs直到整個陣列元素都被計算
print(np.multiply.reduce(np_list))
print(np.add.accumulate(np_list))#想要知道計算過程，也可以改用accumulate
print(np.multiply.accumulate(np_list))

45
362880
[ 1  3  6 10 15 21 28 36 45]
[     1      2      6     24    120    720   5040  40320 362880]


In [26]:
#外積
np_list=np.arange(1,10)
print(np.multiply.outer(np_list,np_list))#outer計算兩個不同輸入值得成對輸出

[[ 1  2  3  4  5  6  7  8  9]
 [ 2  4  6  8 10 12 14 16 18]
 [ 3  6  9 12 15 18 21 24 27]
 [ 4  8 12 16 20 24 28 32 36]
 [ 5 10 15 20 25 30 35 40 45]
 [ 6 12 18 24 30 36 42 48 54]
 [ 7 14 21 28 35 42 49 56 63]
 [ 8 16 24 32 40 48 56 64 72]
 [ 9 18 27 36 45 54 63 72 81]]


## 聚合操作
- np.sum 計算加總
- np.prod 計算乘積
- np.mean 計算平均
- np.std 計算標準差
- np.var 計算變異量
- np.min 計算最小值
- np.max 計算最大值
- np.argmin 找出最小值索引
- np.argmax 找出最大值索引
- np.median 計算中位數
- np.percentile 計算排名統計
- np.any 陣列中任意值傳回True
- np.all 陣列中所有值傳回True

## Broadcasting 

簡單來說這是一個numpy允許不同維度計算的規則

- 規則一: 如果兩個陣列維度不同，較低維度會往左側擴充至等同較高維度。

- 規則二: 如果兩陣列沒有任一維度是相等的，具有shape為一個那個陣列，拉長至吻合另一個陣列的shape。

- 規則三: 如果任意維度不相等，且也無一維度大小等於一，則無法計算。

In [27]:
#規則一
a=np.array([0,1,2])
b=5#被自動拉長類似(5,5,5)
print(a+b)
#規則二
a=np.array([[0,1,2],[3,4,5]])
b=np.array([10,10,10])#也被自動拉伸 
print(a+b)

[5 6 7]
[[10 11 12]
 [13 14 15]]


## 比較、遮罩、布林邏輯
- 比較
 - np.equal ==
 - np.not_equal !=
 - np.less <
 - np.less_equal <=
 - np.greater >
 - np.greater_equal >=
- 邏輯
 - np.bitwise_and &
 - np.bitwise_or |
 - np.bitwise_xor ^
 - np.bitwise_not ~

In [28]:
#利用布林陣列當作遮罩
np_list=np.array([[1,2,3],[7,8,9],[7,4,1]])
print(np_list)
print(np_list[np_list>5])

[[1 2 3]
 [7 8 9]
 [7 4 1]]
[7 8 9 7]


## Fancy索引

簡單來說就是更有彈性的索引方式，可以傳入一個list操作

In [29]:
np_list=np.array([[1,2,3,4,5,6],[7,8,9,6,5,4],[1,4,7,8,5,2]])
print(np_list)
print(np_list[0,1:4])
print(np_list[[0,2],1:4])

[[1 2 3 4 5 6]
 [7 8 9 6 5 4]
 [1 4 7 8 5 2]]
[2 3 4]
[[2 3 4]
 [4 7 8]]


## 排序陣列

numpy內建的排序法 np.sort使用快速排序法 O N log N 的時間複雜度

- np.sort 排序
- np.partition 分區

In [30]:
#np.sort
np_list=np.array([9,4,6,8,5,7,1,2])
print(np_list)
np_list.sort()
print(np_list)
np_list=np.array([[1,2,3,4,5],[7,5,3,9,5],[9,8,5,4,1]])
print(np_list)
np_list.sort(axis=0)#可以指定軸排序
print(np_list)
np_list.sort(axis=1)
print(np_list)
np_list=np.array([9,4,6,8,5,7,1,2])
print(np_list.argsort())#np.argsort取得排序的索引

[9 4 6 8 5 7 1 2]
[1 2 4 5 6 7 8 9]
[[1 2 3 4 5]
 [7 5 3 9 5]
 [9 8 5 4 1]]
[[1 2 3 4 1]
 [7 5 3 4 5]
 [9 8 5 9 5]]
[[1 1 2 3 4]
 [3 4 5 5 7]
 [5 5 8 9 9]]
[6 7 1 4 2 5 3 0]


In [31]:
#np.partition
np_list=np.array([3,5,6,9,8,52,1,4,7])
print(np.partition(np_list,3))
np_list=np.array([3,5,6,9,8,52,1,4,7])
print(np.argpartition(np_list,3))#分區亦可以取得排序的索引

[ 4  1  3  5  6  7 52  9  8]
[7 6 0 1 2 8 5 3 4]


# Pandas

- pandas物件介紹
- 索引、選擇
- 操作資料
- 處理缺失資料
- 階層式索引
- 資料集的合併
- 聚合計算與分組
- 樞紐分析表
- 向量化字串操作
- 使用時間系列
- eval、query

In [32]:
import pandas as pd

## pandas物件介紹

- Series
- DataFrame
- index

### Series

簡單來說就是numpy加上索引(index)

In [33]:
#利用list建立series
pd_list=pd.Series([9,8,7,6,5,4,2,5,8])
print(pd_list)
print(pd_list.values) #Series會有2個屬性 value及index
print(pd_list[1:3])# 與numpy功能幾乎差不多
pd_list[1:3]=999
print(pd_list)
pd_list=pd.Series([9,8,7,6,5,4,3,2,1],index=['a','b','c','d','e','f','g','h','i'])
print(pd_list)
print(pd_list["c"])


0    9
1    8
2    7
3    6
4    5
5    4
6    2
7    5
8    8
dtype: int64
[9 8 7 6 5 4 2 5 8]
1    8
2    7
dtype: int64
0      9
1    999
2    999
3      6
4      5
5      4
6      2
7      5
8      8
dtype: int64
a    9
b    8
c    7
d    6
e    5
f    4
g    3
h    2
i    1
dtype: int64
7


In [34]:
#利用dictionary建立Serice
pd_dict={'a':123,'b':456,'C':789}
pd_list=pd.Series(pd_dict)
print(pd_list)
pd_list['f']=999
print(pd_list)#也支援字典的插入模式
print(pd_list['C':'b'])#但有更好的彈性如可以用切片

C    789
a    123
b    456
dtype: int64
C    789
a    123
b    456
f    999
dtype: int64
C    789
a    123
b    456
dtype: int64


### DataFrame

簡單來說就是很多個Series的組合，且除了索引還多了欄的屬性

In [35]:
pd_Series1=pd.Series([7,8,9,6,5,4])
pd_Series2=pd.Series([1,2,3,7,8,9])
pd_dataframe=pd.DataFrame({"1":pd_Series1,"2":pd_Series2})
print(pd_dataframe)
print(pd_dataframe.index)
print(pd_dataframe.columns)#dataframe會有一個欄屬性


   1  2
0  7  1
1  8  2
2  9  3
3  6  7
4  5  8
5  4  9
RangeIndex(start=0, stop=6, step=1)
Index(['1', '2'], dtype='object')


In [36]:
#建構DataFrame
#利用Series
pd_Series=pd.Series([9,8,7,6,5,4],index=['a','b','c','d','e','f'])
pd_DataFrame=pd.DataFrame(pd_Series,columns=["value"])
print(pd_DataFrame)
#利用dict的list建立
data=[{'i':i,'ii':i*i} for i in range(10)]
pd_DataFrame=pd.DataFrame(data,)
print(pd_DataFrame)
data={'a':1,"b":2,"c":3}
data1={'b':1,"c":2,"d":3}
pd_DataFrame=pd.DataFrame([data,data1])#缺少的項目會補NAN
print(pd_DataFrame)
#利用Series的dict建立
pd_Series=({"a":1,"b":2,"c":3})
pd_Series2=({"a":4,"b":5,"c":6})
pd_DataFrame=pd.DataFrame({"first":pd_Series,"second":pd_Series2})
print(pd_DataFrame)
#利用Numpy二維陣列建立
pd_DataFrame=pd.DataFrame(np.random.rand(3,2),index=["a",'b','c'],columns=['e','f'])
print(pd_DataFrame)

   value
a      9
b      8
c      7
d      6
e      5
f      4
   i  ii
0  0   0
1  1   1
2  2   4
3  3   9
4  4  16
5  5  25
6  6  36
7  7  49
8  8  64
9  9  81
     a  b  c    d
0  1.0  2  3  NaN
1  NaN  1  2  3.0
   first  second
a      1       4
b      2       5
c      3       6
          e         f
a  0.719294  0.466385
b  0.168583  0.062940
c  0.738133  0.042171


### index

這是pandas特殊的屬性，可以把它當作是一個不能修改的ndarray，他同時也可以索引以及切片

## 索引、選擇

DataFrame以及Series有跟ndarray一樣的操作方式，索引、切片、遮罩、fancy索引

- Series 中選擇資料
- DataFrame 中選擇資料

### Series 中選擇資料

In [37]:
#索引、切片、遮罩、fancy索引
pd_Series=pd.Series([0.25,0.5,0.75,1],index=['a','b','c','d'])
print(pd_Series)
print(pd_Series['c'])
print('d' in pd_Series)#可以使用字典的檢查方式
print(pd_Series.keys())
pd_Series['c']=999#dict的修改方法
pd_Series['E']=1000#以及新增
print(pd_Series)
print(pd_Series[1:3])#切片
print(pd_Series[(pd_Series>0.5)])#遮罩
print(pd_Series[["a",'d']])#fancy索引

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64
0.75
True
Index(['a', 'b', 'c', 'd'], dtype='object')
a       0.25
b       0.50
c     999.00
d       1.00
E    1000.00
dtype: float64
b      0.5
c    999.0
dtype: float64
c     999.0
d       1.0
E    1000.0
dtype: float64
a    0.25
d    1.00
dtype: float64


In [38]:
#loc,iloc,ix 由於切片對於明確及隱藏索引會混淆，提供新的方法
pd_Series=pd.Series([3,7,5],index=[9,8,7])
print(pd_Series)
print(pd_Series.loc[9:8])#loc針對明確的索引
print(pd_Series.iloc[0:2])#iloc針對隱藏的索引


9    3
8    7
7    5
dtype: int64
9    3
8    7
dtype: int64
9    3
8    7
dtype: int64


### DataFrame 中選擇資料

In [39]:
area=pd.Series({"a":123,"b":456,"c":789})
pop=pd.Series({"a":987,"b":741,"c":879})
pd_DataFrame=pd.DataFrame({'area':area,"pop":pop})
print(pd_DataFrame)
print(pd_DataFrame['area'])#可以透過欄取得Series
print(pd_DataFrame.area)#亦可用屬性的形式但不推薦這個方法
pd_DataFrame["density"]=pd_DataFrame['pop']/pd_DataFrame["area"]
print(pd_DataFrame)
print(pd_DataFrame.values)#透過values可以檢視陣列所有元素
print(pd_DataFrame.T)#利用.T轉置矩陣

   area  pop
a   123  987
b   456  741
c   789  879
a    123
b    456
c    789
Name: area, dtype: int64
a    123
b    456
c    789
Name: area, dtype: int64
   area  pop   density
a   123  987  8.024390
b   456  741  1.625000
c   789  879  1.114068
[[123.         987.           8.02439024]
 [456.         741.           1.625     ]
 [789.         879.           1.11406844]]
                 a        b           c
area     123.00000  456.000  789.000000
pop      987.00000  741.000  879.000000
density    8.02439    1.625    1.114068


In [40]:
#利用loc,iloc,ix
area=pd.Series({"a":123,"b":456,"c":789})
pop=pd.Series({"a":987,"b":741,"c":879})
pd_DataFrame=pd.DataFrame({'area':area,"pop":pop})
pd_DataFrame["density"]=pd_DataFrame['pop']/pd_DataFrame["area"]
print(pd_DataFrame)
print(pd_DataFrame.loc[:'b',:'pop'])
print(pd_DataFrame.iloc[:2,:2])
print(pd_DataFrame.ix[:2,:"pop"])#允許混搭
print(pd_DataFrame[0:2])#切片會指向索引

   area  pop   density
a   123  987  8.024390
b   456  741  1.625000
c   789  879  1.114068
   area  pop
a   123  987
b   456  741
   area  pop
a   123  987
b   456  741
   area  pop
a   123  987
b   456  741
   area  pop  density
a   123  987  8.02439
b   456  741  1.62500


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  


## 操作資料

他繼承了numpy的ufuncs


## 處理缺失資料

對於缺失的資料一般來說都用兩種方式，遮罩以及哨兵塔

pandas選用哨兵塔的形式表達缺失資料，且採納python兩個空值得表達法浮點數NaN以及物件None

pandas取代空值得方法
- isnull 產生一個遮造以顯示空的資料
- notnull 與上相反
- dropna 傳回一個過濾掉空值的版本
- fillna 傳回一個空值被填入其它值得版本


### isnull

In [41]:
pd_Series=pd.Series([1,np.nan,2,3,None])
print(pd_Series)
print(pd_Series.isnull())
print(pd.isnull(pd_Series))

0    1.0
1    NaN
2    2.0
3    3.0
4    NaN
dtype: float64
0    False
1     True
2    False
3    False
4     True
dtype: bool
0    False
1     True
2    False
3    False
4     True
dtype: bool


### dropna

In [42]:
pd_Series=pd.Series([1,np.nan,2,3,None])
print(pd_Series)
print(pd_Series.dropna())
pd_Series1=pd.Series([1,np.nan,2,3,None])
pd_Series2=pd.Series([4,9,None,3,6])
pd_Series3=pd.Series([4,3,99,88,0])
pd_DataFrame=pd.DataFrame([pd_Series1,pd_Series2,pd_Series3])
print(pd_DataFrame)
print(pd_DataFrame.dropna())#無法單獨丟棄一個元素
print(pd_DataFrame.dropna(axis=1))
print(pd_DataFrame.dropna(how='all'))#how=all 會只丟棄全為NAN的欄或列
print(pd_DataFrame.dropna(thresh=4))#thresh=3 欄或列至少要有多少的非空值才會被留下

0    1.0
1    NaN
2    2.0
3    3.0
4    NaN
dtype: float64
0    1.0
2    2.0
3    3.0
dtype: float64
     0    1     2     3    4
0  1.0  NaN   2.0   3.0  NaN
1  4.0  9.0   NaN   3.0  6.0
2  4.0  3.0  99.0  88.0  0.0
     0    1     2     3    4
2  4.0  3.0  99.0  88.0  0.0
     0     3
0  1.0   3.0
1  4.0   3.0
2  4.0  88.0
     0    1     2     3    4
0  1.0  NaN   2.0   3.0  NaN
1  4.0  9.0   NaN   3.0  6.0
2  4.0  3.0  99.0  88.0  0.0
     0    1     2     3    4
1  4.0  9.0   NaN   3.0  6.0
2  4.0  3.0  99.0  88.0  0.0


### fillna()

In [43]:
pd_DataFrame=pd.DataFrame([pd_Series1,pd_Series2,pd_Series3])
print(pd_DataFrame)
print(pd_DataFrame.fillna(999))
print(pd_DataFrame.fillna(method="ffill",axis=1))#向前填
print(pd_DataFrame.fillna(method="bfill",axis=1))#向後填

     0    1     2     3    4
0  1.0  NaN   2.0   3.0  NaN
1  4.0  9.0   NaN   3.0  6.0
2  4.0  3.0  99.0  88.0  0.0
     0      1      2     3      4
0  1.0  999.0    2.0   3.0  999.0
1  4.0    9.0  999.0   3.0    6.0
2  4.0    3.0   99.0  88.0    0.0
     0    1     2     3    4
0  1.0  1.0   2.0   3.0  3.0
1  4.0  9.0   9.0   3.0  6.0
2  4.0  3.0  99.0  88.0  0.0
     0    1     2     3    4
0  1.0  2.0   2.0   3.0  NaN
1  4.0  9.0   3.0   3.0  6.0
2  4.0  3.0  99.0  88.0  0.0


## 階層式索引
- 建立Multilndex
- Multilndex的操作

### 建立Multilndex

In [44]:
#利用Series建立多維陣列
index=[("a",2000),("a",2001),("c",2000),("c",2001)]
index=pd.MultiIndex.from_tuples(index)
print(index)
pop=pd.Series([100,200,300,400],index=index)
print(pop)
print(pop[:,2000])

MultiIndex(levels=[['a', 'c'], [2000, 2001]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])
a  2000    100
   2001    200
c  2000    300
   2001    400
dtype: int64
a    100
c    300
dtype: int64


In [45]:
#unstack 與 stack
pop=pd.Series([100,200,300,400],index=index)
print(pop)
print(pop.unstack())#利用unstack轉換為我們熟知的DataFrame (stack則是與其相反操作)


a  2000    100
   2001    200
c  2000    300
   2001    400
dtype: int64
   2000  2001
a   100   200
c   300   400


In [46]:
#Multilndex建立方法
data=pd.DataFrame(np.random.rand(4,2),index=[['a','a','b','b'],[1,2,1,2]],columns=["data1",'data2'])
print(data)
data={("a",1):123,("a",2):456,("b",1):789,("b",2):741}#明確的建立tuple的字典來建立
data=pd.Series(data)
print(data)
#Multilndex建構式
data=pd.MultiIndex.from_arrays([["a","a","b",'b'],[1,2,1,2]])#以下4種方法皆建立同樣的Multilndex建構式
print(data)
data=pd.MultiIndex.from_tuples([('a',1),('a',2),('b',1),("b",2)])
print(data)
data=pd.MultiIndex.from_product([['a','b'],[1,2]])
print(data)
data=pd.MultiIndex(levels=[['a','b'],[1,2]],labels=[[0,0,1,1],[0,1,0,1]])
print(data)

        data1     data2
a 1  0.770492  0.944641
  2  0.383952  0.829289
b 1  0.405166  0.226355
  2  0.053640  0.393743
a  1    123
   2    456
b  1    789
   2    741
dtype: int64
MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])
MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])
MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])
MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])


In [47]:
data=pd.MultiIndex.from_product([['a','b'],[1,2]])
data=pd.Series([100,200,300,400],index=data)
data.index.names=['abc','num']#利用names給定Multilndex名稱
print(data)
data1=pd.MultiIndex.from_product([['a','b'],[1,2]],names=['abc','num'])
data2=pd.MultiIndex.from_product([['c','d'],[99,98]],names=['abc','num'])#欄也可以建立Multilndex
data=pd.DataFrame(np.random.rand(4,4),index=data1,columns=data2)
print(data)
print(data["c"])

abc  num
a    1      100
     2      200
b    1      300
     2      400
dtype: int64
abc             c                   d          
num            99        98        99        98
abc num                                        
a   1    0.385902  0.773810  0.053064  0.000043
    2    0.739908  0.638831  0.775481  0.299348
b   1    0.397005  0.652701  0.822289  0.946130
    2    0.015180  0.218496  0.319800  0.763027
num            99        98
abc num                    
a   1    0.385902  0.773810
    2    0.739908  0.638831
b   1    0.397005  0.652701
    2    0.015180  0.218496


### Multilndex的操作

In [48]:
#索引與切片
data=pd.MultiIndex.from_product([['a','b','c','d'],[1,2]])
data=pd.Series([100,200,300,400,100,200,300,400],index=data)
data.index.names=['abc','num']
print(data)
print(data['a',2])#Series的索引方法
print(data['a'])
print(data['b':'c'])#Series的切片
#其餘方法基本上跟Series一樣包含遮罩、fancy索引

abc  num
a    1      100
     2      200
b    1      300
     2      400
c    1      100
     2      200
d    1      300
     2      400
dtype: int64
200
num
1    100
2    200
dtype: int64
abc  num
b    1      300
     2      400
c    1      100
     2      200
dtype: int64


In [49]:
data1=pd.MultiIndex.from_product([['a','b'],[1,2]],names=['abc','num'])
data2=pd.MultiIndex.from_product([['c','d'],[99,98]],names=['abc','num'])
data=pd.DataFrame(np.random.rand(4,4),index=data1,columns=data2)
print(data)
print(data.iloc[:2,:2])#操作基本上跟DataFrame一樣
print(data.loc[:,[('c',99),('d',99)]])

abc             c                   d          
num            99        98        99        98
abc num                                        
a   1    0.000282  0.325160  0.629258  0.904161
    2    0.123490  0.789763  0.345668  0.890608
b   1    0.449306  0.937912  0.772946  0.712123
    2    0.279587  0.136470  0.034796  0.407986
abc             c          
num            99        98
abc num                    
a   1    0.000282  0.325160
    2    0.123490  0.789763
abc             c         d
num            99        99
abc num                    
a   1    0.000282  0.629258
    2    0.123490  0.345668
b   1    0.449306  0.772946
    2    0.279587  0.034796


In [50]:
#在多重索引中未來續的索引無法使用切片 可以利用 sort_index 或 sortlevel
data = pd.Series(np.random.rand(6),index=pd.MultiIndex.from_product([["a","c","b"],[1,2]]))
print(data)
print(data.sort_index())
print(data.unstack())#unstack也可以達到排序效果
print(data.unstack(level=0))#可以利用level=0決定unstack的層級
print(data.reset_index())#reset_index()方法將層級轉化為欄位，如果有names會成為他的columns
data=data.reset_index() #這實際上比較像一般我們看到的資料形式
print(data.set_index(['level_0','level_1']))#利用set_index轉換成多重陣列
data=data.set_index(['level_0','level_1'])
print(data.mean(level='level_0'))#利用level決定要聚合的資料

a  1    0.463949
   2    0.909856
c  1    0.513441
   2    0.382294
b  1    0.341285
   2    0.200672
dtype: float64
a  1    0.463949
   2    0.909856
b  1    0.341285
   2    0.200672
c  1    0.513441
   2    0.382294
dtype: float64
          1         2
a  0.463949  0.909856
b  0.341285  0.200672
c  0.513441  0.382294
          a         b         c
1  0.463949  0.341285  0.513441
2  0.909856  0.200672  0.382294
  level_0  level_1         0
0       a        1  0.463949
1       a        2  0.909856
2       c        1  0.513441
3       c        2  0.382294
4       b        1  0.341285
5       b        2  0.200672
                        0
level_0 level_1          
a       1        0.463949
        2        0.909856
c       1        0.513441
        2        0.382294
b       1        0.341285
        2        0.200672
                0
level_0          
a        0.686903
c        0.447868
b        0.270978


## 資料集的合併

- concat
- append
- merge


### concat

In [51]:
data1=pd.Series(['a','b','c'])
data2=pd.Series(['d','e','f'])
data1=pd.concat([data1,data2])#透過concat達到類似np.concatenate的效果
print(data1)
data1=pd.DataFrame(np.random.rand(3,3))
data2=pd.DataFrame(np.random.rand(3,3))
data1=pd.concat([data1,data2])
print(data1)#DataFrame亦同 ， 結果均和np.concatenate相同不同的是它會保留索引，這不是我們想要的結果
data1=pd.Series(['a','b','c'])
data2=pd.Series(['d','e','f'])
data1=pd.concat([data1,data2],ignore_index=True)#可利用ignore_index刪除原本索引
print(data1)
data1=pd.Series(['a','b','c'])
data2=pd.Series(['d','e','f'])
data1=pd.concat([data1,data2],keys=['x','y'])#或利用Keys建立多重索引
print(data1)
data1=pd.DataFrame(np.random.rand(3,3),columns=['a','b','c'])
data2=pd.DataFrame(np.random.rand(3,3),columns=['d','b','c'])
data3=pd.concat([data1,data2])#當合併項有空值會用NAN填入
print(data3)
data3=pd.concat([data1,data2],join="inner")#可以用join="inner"消除預設為outer
print(data3)
data3=pd.concat([data1,data2],join_axes=[data1.columns])#亦可使用join_axes=[data1.columns]以誰為基準
print(data3)

0    a
1    b
2    c
0    d
1    e
2    f
dtype: object
          0         1         2
0  0.714404  0.560999  0.930594
1  0.157713  0.402253  0.315027
2  0.769011  0.694217  0.752985
0  0.661201  0.253871  0.289714
1  0.037592  0.420807  0.393850
2  0.434742  0.749551  0.703527
0    a
1    b
2    c
3    d
4    e
5    f
dtype: object
x  0    a
   1    b
   2    c
y  0    d
   1    e
   2    f
dtype: object
          a         b         c         d
0  0.356134  0.712619  0.040048       NaN
1  0.736449  0.037139  0.019918       NaN
2  0.878387  0.322811  0.180924       NaN
0       NaN  0.380485  0.615802  0.045349
1       NaN  0.336746  0.680721  0.101961
2       NaN  0.916692  0.089989  0.984275
          b         c
0  0.712619  0.040048
1  0.037139  0.019918
2  0.322811  0.180924
0  0.380485  0.615802
1  0.336746  0.680721
2  0.916692  0.089989
          a         b         c
0  0.356134  0.712619  0.040048
1  0.736449  0.037139  0.019918
2  0.878387  0.322811  0.180924
0       NaN  0

### append


In [52]:
data1=pd.Series(['a','b','c'])
data2=pd.Series(['d','e','f'])
print(data1.append(data2))#可以簡單的利用append合併資料集

0    a
1    b
2    c
0    d
1    e
2    f
dtype: object


### merge

In [53]:
#一對一
data1=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
data2=pd.DataFrame({'a':[1,2,3],'c':[9,8,7],'d':[7,5,3]})

data3=pd.merge(data1,data2)#會自動把一樣的組起來('a')
print(data3)
#多對一
data1=pd.DataFrame({'a':[1,2,2,3],'b':[4,5,6,7]})
data2=pd.DataFrame({'a':[1,2,3],'c':[9,99,7],'d':[7,99,3]})

data3=pd.merge(data1,data2)#會自動幫忙補齊
print(data3)
#多對多
data1=pd.DataFrame({'a':[1,2,2,3],'b':[4,5,6,7]})
data2=pd.DataFrame({'a':[1,1,2,2,3,3],'c':[9,99,7,77,8,88]})

data3=pd.merge(data1,data2)#會自動幫忙補齊擴增
print(data3)


   a  b  c  d
0  1  4  9  7
1  2  5  8  5
2  3  6  7  3
   a  b   c   d
0  1  4   9   7
1  2  5  99  99
2  2  6  99  99
3  3  7   7   3
   a  b   c
0  1  4   9
1  1  4  99
2  2  5   7
3  2  5  77
4  2  6   7
5  2  6  77
6  3  7   8
7  3  7  88


In [54]:
# on
data1=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
data2=pd.DataFrame({'a':[1,2,3],'c':[9,8,7],'d':[7,5,3]})

data3=pd.merge(data1,data2,on="a")#利用on明確指定要合併的向
print(data3)
# 如果欄位資料一樣但名稱不一樣可以使用 left_on right_on
data1=pd.DataFrame({'aa':[1,2,3],'b':[4,5,6]})
data2=pd.DataFrame({'a':[1,2,3],'c':[9,8,7],'d':[7,5,3]})

data3=pd.merge(data1,data2,left_on='aa',right_on='a')#利用on明確指定要合併的向
print(data3)
data3=pd.merge(data1,data2,left_on='aa',right_on='a').drop('aa',axis=1)
#利用drop刪除多餘的欄
print(data3)

   a  b  c  d
0  1  4  9  7
1  2  5  8  5
2  3  6  7  3
   aa  b  a  c  d
0   1  4  1  9  7
1   2  5  2  8  5
2   3  6  3  7  3
   b  a  c  d
0  4  1  9  7
1  5  2  8  5
2  6  3  7  3


In [55]:
data1=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]},index=[999,888,777])
data2=pd.DataFrame({'a':[1,2,3],'c':[9,8,7],'d':[7,5,3]},index=[999,888,777])
data3=pd.merge(data1,data2,left_index=True,right_index=True)#也可以用imdex索引來合併
print(data3)
data1=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
data2=pd.DataFrame({'c':[9,8,7],'d':[7,5,3]},index=[1,2,3])
data3=pd.merge(data1,data2,left_on='a',right_index=True)#綜合使用
print(data3)

     a_x  b  a_y  c  d
999    1  4    1  9  7
888    2  5    2  8  5
777    3  6    3  7  3
   a  b  c  d
0  1  4  9  7
1  2  5  8  5
2  3  6  7  3


In [56]:
#how
data1=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
data2=pd.DataFrame({'a':[1,5,6],'c':[9,8,7],'d':[7,5,3]})

data3=pd.merge(data1,data2)
print(data3)

data3=pd.merge(data1,data2,how="outer")
#利用out顯則顯示有缺失的資料，其他可用的參數還有inner,left,right
print(data3)
#suffixes
data1=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
data2=pd.DataFrame({'a':[1,2,3],'b':[9,8,7],'d':[7,5,3]})

data3=pd.merge(data1,data2,on="a")#重複欄位會自動以_X _Y 表示
print(data3)
data3=pd.merge(data1,data2,on="a",suffixes=['_l',"_r"])#利用suffixes自訂名稱
print(data3)

   a  b  c  d
0  1  4  9  7
   a    b    c    d
0  1  4.0  9.0  7.0
1  2  5.0  NaN  NaN
2  3  6.0  NaN  NaN
3  5  NaN  8.0  5.0
4  6  NaN  7.0  3.0
   a  b_x  b_y  d
0  1    4    9  7
1  2    5    8  5
2  3    6    7  3
   a  b_l  b_r  d
0  1    4    9  7
1  2    5    8  5
2  3    6    7  3


## 聚合計算與分組

series 以及 dataframe 繼承了 numpy 所有的聚合方法(max、min等等)，且額外多了一個很好用的方法describe它可以顯示一些常用的聚合結果


In [57]:
data1=pd.DataFrame({'a':[1,2,3],'b':[4,5,5]})
data2=pd.DataFrame({'a':[1,2,3],'c':[9,8,7],'d':[7,5,3]})
data3=pd.merge(data1,data2,on="a")
print(data3)
print(data3.describe())

   a  b  c  d
0  1  4  9  7
1  2  5  8  5
2  3  5  7  3
         a         b    c    d
count  3.0  3.000000  3.0  3.0
mean   2.0  4.666667  8.0  5.0
std    1.0  0.577350  1.0  2.0
min    1.0  4.000000  7.0  3.0
25%    1.5  4.500000  7.5  4.0
50%    2.0  5.000000  8.0  5.0
75%    2.5  5.000000  8.5  6.0
max    3.0  5.000000  9.0  7.0


In [58]:
#groupby 會產生一個物件 後面可以接聚合方法達到快速運算

In [59]:
print(data3.groupby("b").sum())
print(data3.groupby("b")['c'].sum())

   a   c  d
b          
4  1   9  7
5  5  15  8
b
4     9
5    15
Name: c, dtype: int64


In [60]:
#groupby 而外的方法(聚合(aggregate)、過濾(filter)、轉換(transform)、套用(apply))

In [61]:
#聚合(aggregate)
df=pd.DataFrame({'key':['A',"B","c",'A',"B","c"],'data1':range(6),'data2':np.random.rand(6)},columns=['key','data1','data2'])
print(df)
print(df.groupby('key').aggregate(['min',max,np.median]))

  key  data1     data2
0   A      0  0.540021
1   B      1  0.479962
2   c      2  0.373952
3   A      3  0.452697
4   B      4  0.106216
5   c      5  0.319655
    data1                data2                    
      min max median       min       max    median
key                                               
A       0   3    1.5  0.452697  0.540021  0.496359
B       1   4    2.5  0.106216  0.479962  0.293089
c       2   5    3.5  0.319655  0.373952  0.346804


In [62]:
#過濾(filter)
def funs(x):
  return x["data2"].std() > 0.3
print(df.groupby("key").std())
print(df.groupby("key").filter(funs))

       data1     data2
key                   
A    2.12132  0.061747
B    2.12132  0.264278
c    2.12132  0.038393
Empty DataFrame
Columns: [key, data1, data2]
Index: []


In [63]:
#轉換(transform)

In [64]:
df.groupby('key').transform(lambda x:x-x.mean())

Unnamed: 0,data1,data2
0,-1.5,0.043662
1,-1.5,0.186873
2,-1.5,0.027148
3,1.5,-0.043662
4,1.5,-0.186873
5,1.5,-0.027148


In [65]:
#套用(apply)

def fun1(x):
  x['data1']/=x["data2"].sum()
  return x
print(df.groupby('key').apply(fun1))


  key     data1     data2
0   A  0.000000  0.540021
1   B  1.705966  0.479962
2   c  2.883476  0.373952
3   A  3.022005  0.452697
4   B  6.823864  0.106216
5   c  7.208690  0.319655


## 樞紐分析表

可以把它想像為二維的groupby

In [66]:
import seaborn as sns
data= sns.load_dataset("titanic")
data.head()

print(data.pivot_table('survived',index='sex',columns='class'))

age=pd.cut(data["age"],[0,18,80])#用cut切資料
print(data.pivot_table('survived',index=['sex',age],columns='class'))
fare=pd.qcut(data["fare"],2)#用qcut自動切資料
print(data.pivot_table('survived',index=['sex',age],columns=[fare,'class']))
print(data.pivot_table('survived',index=['sex',age],columns=[fare,'class'],aggfunc='max'))
#aggfunc參數選擇我們想要的運算預設為mean,亦可以給他一個字典 {'sex':max,'class':min}
#參數margins=True 可以多列出一欄顯示所有值的計算預設名稱為ALL

class      First    Second     Third
sex                                 
female  0.968085  0.921053  0.500000
male    0.368852  0.157407  0.135447
class               First    Second     Third
sex    age                                   
female (0, 18]   0.909091  1.000000  0.511628
       (18, 80]  0.972973  0.900000  0.423729
male   (0, 18]   0.800000  0.600000  0.215686
       (18, 80]  0.375000  0.071429  0.133663
fare            (-0.001, 14.454]                     (14.454, 512.329]  \
class                      First    Second     Third             First   
sex    age                                                               
female (0, 18]               NaN  1.000000  0.714286          0.909091   
       (18, 80]              NaN  0.880000  0.444444          0.972973   
male   (0, 18]               NaN  0.000000  0.260870          0.800000   
       (18, 80]              0.0  0.098039  0.125000          0.391304   

fare                                 
class              

## 向量化字串操作

numpy們有提供對str的操作

In [67]:
data=pd.Series(["a","b","c",None,"d"])
print(data)
print(data.str.capitalize())#透過pandas的str物件可以略過空值不會發生錯誤
#幾乎python所有的字串用法都被實作出來


0       a
1       b
2       c
3    None
4       d
dtype: object
0       A
1       B
2       C
3    None
4       D
dtype: object


## 使用時間系列

### Numpy的 datetime64 資料型態

In [70]:
date = np.array('2015-07-04',dtype=np.datetime64)
print(date)
print(date+np.arange(6))

2015-07-04
['2015-07-04' '2015-07-05' '2015-07-06' '2015-07-07' '2015-07-08'
 '2015-07-09']


### Pandas 的 datetime

In [80]:
date = pd.to_datetime("4th of july,2015")
print(date)
print(date.strftime('%A'))#strftime自動找出當天星期幾
print(date+pd.to_timedelta(np.arange(12),'D'))
index=pd.DatetimeIndex(['2015-07-04', '2016-07-05', '2015-07-06', '2016-07-07'])
date=pd.Series([0,1,2,3],index=index)
print(date)
print(date['2016-07-05'])
print(date['2016'])#可以指利用年份搜尋


2015-07-04 00:00:00
Saturday
DatetimeIndex(['2015-07-04', '2015-07-05', '2015-07-06', '2015-07-07',
               '2015-07-08', '2015-07-09', '2015-07-10', '2015-07-11',
               '2015-07-12', '2015-07-13', '2015-07-14', '2015-07-15'],
              dtype='datetime64[ns]', freq=None)
2015-07-04    0
2016-07-05    1
2015-07-06    2
2016-07-07    3
dtype: int64
2016-07-05    1
dtype: int64
2016-07-05    1
2016-07-07    3
dtype: int64


### pandas時間系列資料結構

In [0]:
!pip install datetime

In [91]:
#最常用的就是pd.to_datetime()，它可以解析很多格式，
#如果傳入單一日期它會解析成Timestamp如果傳入一串會解析成DatetimeIndex
import datetime as datetime
dates=pd.to_datetime(['4th of July, 2015',"20150708"])
print(dates)

DatetimeIndex(['2015-07-04', '2015-07-08'], dtype='datetime64[ns]', freq=None)
