# Numpy 
*****
#### 可使用在矩陣運算、線性代數、矩陣乘法、轉置、數學運算、統計運算...等
[連結](https://docs.scipy.org/doc/numpy/reference/routines.html)

#### ndim 維度、shape 行列、size 個數

In [1]:
# Array 之中的每一個元素都必須是相同型態

import numpy as np  # 使用numpy採用np簡寫

array1 = np.array([1, 2, 3])  # 一維的
array2 = np.array([[1, 2, 3], [4, 5, 6]])  # 二維

print(array2)
print('維度:',array2.ndim)    # 維度 ndim
print('行列:',array2.shape)   # 行列 shape
print('個數:',array2.size)    # 個數 size

[[1 2 3]
 [4 5 6]]
維度: 2
行列: (2, 3)
個數: 6


# H01 一維運算 
*****
#### arrange、zeros、ones、random

In [2]:
#一維陣列的運算
import numpy as np

a = np.array([3,6,9,12,15,18])
b = np.arange(6)    # 0-5
c = np.zeros(6)     # 數據全為0，6個
d = np.ones(6, dtype = np.int)  # 數據為1，6個，整數
e = np.random.random(6) # 0-1浮點數，6個
f = np.random.rand(6)
g = b-a

print(a,b,c,d,e,f,g, sep="\n")
print(g < -9)
print(g == -9)

[ 3  6  9 12 15 18]
[0 1 2 3 4 5]
[0. 0. 0. 0. 0. 0.]
[1 1 1 1 1 1]
[0.7428798  0.30510032 0.70284686 0.41662477 0.01542927 0.26980243]
[0.02362429 0.58765961 0.59618895 0.66055794 0.25559448 0.57825644]
[ -3  -5  -7  -9 -11 -13]
[False False False False  True  True]
[False False False  True False False]


# H02 多維運算 
*****
#### arrange、zeros、ones、random、sum、axis

In [3]:
#多維陣列的運算
import numpy as np

a = np.array([[3,6,9],[12,15,18]])
b = np.arange(6).reshape(2,3) # 一維轉成2X3
c = np.zeros((2,3)) # 數據全為0
d = np.ones((2,3), dtype = np.int) # 數據為1，6個
e = np.random.random((2,3)) #亂數，6個

print(a,b,c,d,e, sep="\n")
print(np.sum(a))
print(np.sum(a, axis=0)) # 欄位(直)的加總
print(np.sum(a, axis=1)) # 欄位(橫)的加總

[[ 3  6  9]
 [12 15 18]]
[[0 1 2]
 [3 4 5]]
[[0. 0. 0.]
 [0. 0. 0.]]
[[1 1 1]
 [1 1 1]]
[[0.39869182 0.65928851 0.36077848]
 [0.27821291 0.13575088 0.31135486]]
63
[15 21 27]
[18 45]


# H03 加減乘除法(*非矩陣乘法*) 
*****
#### +	-	*	/

In [10]:
import numpy as np
A=np.array([[2,4,6],[8,10,12]])
B=np.arange(6).reshape((2,3)) 

print(A)
print(B)

# AB的加減乘除法
print(A+B)
print(A-B)
print(A*B)
print(B/A)  # 被除數不可為0

[[ 2  4  6]
 [ 8 10 12]]
[[0 1 2]
 [3 4 5]]
[[ 2  5  8]
 [11 14 17]]
[[2 3 4]
 [5 6 7]]
[[ 0  4 12]
 [24 40 60]]
[[0.         0.25       0.33333333]
 [0.375      0.4        0.41666667]]


# H04 矩陣乘法 
*****
#### .T、.dot

In [23]:
# 矩陣轉置 .T
import numpy as np
a=np.array([[2,4,6],[8,10,12]])
b=np.arange(6).reshape((2,3)) 

print(a)
print(b)
print(b.T) # transpose

# 矩陣乘法 .dot
print(np.dot(a,b.T))

[[ 2  4  6]
 [ 8 10 12]]
[[0 1 2]
 [3 4 5]]
[[0 3]
 [1 4]
 [2 5]]
[[ 16  52]
 [ 34 124]]


# H05 Array操作 
*****
#### 合併 vstack、hstack
#### 分割 vspilt、hspilt

In [52]:
# array 合併
import numpy as np
A = np.array([1,1,1])
B = np.array([2,2,2])
         
print(np.vstack((A,B))) #vertical
print(np.hstack((A,B))) #horizontal

# array 分割
import numpy as np
a = np.arange(12).reshape((3,4))
print(a)
print(np.vsplit(a,3)) #vertical
print(np.hsplit(a,2)) #horizontal

[[1 1 1]
 [2 2 2]]
[1 1 1 2 2 2]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[array([[0, 1, 2, 3]]), array([[4, 5, 6, 7]]), array([[ 8,  9, 10, 11]])]
[array([[0, 1],
       [4, 5],
       [8, 9]]), array([[ 2,  3],
       [ 6,  7],
       [10, 11]])]


# H06 numpy 取值
*****
[:,:] 左邊橫行 右邊直列

In [1]:
import numpy as np
a = np.array([[1,2,3],[2,3,4]])
a1 = a[:,:1]
a2 = a[:,1:2]
a3 = a[:,2:3]
a4 = a[:1]

In [2]:
a

array([[1, 2, 3],
       [2, 3, 4]])

In [3]:
a1

array([[1],
       [2]])

In [4]:
a2

array([[2],
       [3]])

In [5]:
a3

array([[3],
       [4]])

In [6]:
a4

array([[1, 2, 3]])

# Pandas 
*****
#### Pandas建構於Numpy上，Python做資料分析常用的套件
- Numpy是array形式的，沒有欄位名稱或標籤
- Pandas基於Numpy構建的，有列表的標籤 

# H01 Series 
*****
#### 是有index的一維array

In [104]:
import pandas as pd
import numpy as np
# 建立一個 Series 有整數、字串、NAN、浮點數、布林
s = pd.Series([1, "abc", np.nan, 3.14, True])

print(s)
#如果是numpy的array呢?

0       1
1     abc
2     NaN
3    3.14
4    True
dtype: object


# H02 DateFrame
*****
#### 生成方式一 : 用array的矩陣
#### 生成方式二 : 字典方式

In [148]:
# 生成方式一：用array的矩陣(1)
df = pd.DataFrame(np.random.randn(7,3))
print(df)

# 生成方式一：用array的矩陣(2)
eat = np.random.randint(10,size=(7,3))*5+50
print(eat)
dates = pd.date_range('20171028',periods=7)
df0 = pd.DataFrame(eat)
print(df0)
#加上欄位
df1 = pd.DataFrame(eat, index=dates, columns=['早餐','午餐','晚餐'])
print(df1)

          0         1         2
0  1.957959  0.263000  0.312238
1  0.444358  0.878695 -1.199393
2  0.200609  0.474083  1.288408
3 -1.671216 -0.719887 -0.015013
4 -0.511223  2.046858  2.791046
5 -0.692247  0.191990  0.248280
6  0.221255  1.374569 -0.096175
[[80 85 80]
 [85 50 55]
 [80 85 60]
 [90 55 85]
 [60 50 70]
 [80 75 55]
 [95 60 50]]
    0   1   2
0  80  85  80
1  85  50  55
2  80  85  60
3  90  55  85
4  60  50  70
5  80  75  55
6  95  60  50
            早餐  午餐  晚餐
2017-10-28  80  85  80
2017-10-29  85  50  55
2017-10-30  80  85  60
2017-10-31  90  55  85
2017-11-01  60  50  70
2017-11-02  80  75  55
2017-11-03  95  60  50


In [155]:
#生成方式二，字典方式
df2 = pd.DataFrame({'小數' : pd.Series(1,index=list(range(4)),dtype='float32'),
                    '整數' : np.array([3] * 4,dtype='int32'),
                    '時間' : pd.Timestamp('20170812'),
                    '類別資料' : pd.Categorical(["test","train","test","train"]),
                    '測試' : 123
                   }) 
#字典的key代表甚麼? colums name
#dtype指定資料格式? Y
print(df2)

    小數  整數         時間   測試   類別資料
0  1.0   3 2017-08-12  123   test
1  1.0   3 2017-08-12  123  train
2  1.0   3 2017-08-12  123   test
3  1.0   3 2017-08-12  123  train


In [159]:
#DataFrame的屬性
print(df2)
print(df2.dtypes)
print(df2.index) #print(df2.columns), print(df2.values)
print(df2.describe()) #有甚麼要注意的呢?

print(df2.T)
print(df2.sort_index(axis=1, ascending=False))
print(df2.sort_values(by='類別資料'))

    小數  整數         時間   測試   類別資料
0  1.0   3 2017-08-12  123   test
1  1.0   3 2017-08-12  123  train
2  1.0   3 2017-08-12  123   test
3  1.0   3 2017-08-12  123  train
小數             float32
整數               int32
時間      datetime64[ns]
測試               int64
類別資料          category
dtype: object
Int64Index([0, 1, 2, 3], dtype='int64')
        小數   整數     測試
count  4.0  4.0    4.0
mean   1.0  3.0  123.0
std    0.0  0.0    0.0
min    1.0  3.0  123.0
25%    1.0  3.0  123.0
50%    1.0  3.0  123.0
75%    1.0  3.0  123.0
max    1.0  3.0  123.0
                        0                    1                    2  \
小數                      1                    1                    1   
整數                      3                    3                    3   
時間    2017-08-12 00:00:00  2017-08-12 00:00:00  2017-08-12 00:00:00   
測試                    123                  123                  123   
類別資料                 test                train                 test   

                        3  

# H03 選擇欄、列數據
*****
#### 欄列一起選、by position、by ix、判斷、篩選

In [168]:
print(df1)
print(df1["午餐"])
print(df1[0:3])

            早餐  午餐  晚餐
2017-10-28  80  85  80
2017-10-29  85  50  55
2017-10-30  80  85  60
2017-10-31  90  55  85
2017-11-01  60  50  70
2017-11-02  80  75  55
2017-11-03  95  60  50
2017-10-28    85
2017-10-29    50
2017-10-30    85
2017-10-31    55
2017-11-01    50
2017-11-02    75
2017-11-03    60
Freq: D, Name: 午餐, dtype: int32
            早餐  午餐  晚餐
2017-10-28  80  85  80
2017-10-29  85  50  55
2017-10-30  80  85  60


In [169]:
# 欄列一起選
# select by label
print(df1.loc['20171028'])
print(df1.loc[:,['早餐','晚餐']])

早餐    80
午餐    85
晚餐    80
Name: 2017-10-28 00:00:00, dtype: int32
            早餐  晚餐
2017-10-28  80  80
2017-10-29  85  55
2017-10-30  80  60
2017-10-31  90  85
2017-11-01  60  70
2017-11-02  80  55
2017-11-03  95  50


In [172]:
#select by position
print(df1.iloc[3,1])
print(df1.iloc[3:5,1:3])

55
            午餐  晚餐
2017-10-31  55  85
2017-11-01  50  70


In [173]:
#select by ix
print(df1.ix[:3,['午餐','晚餐']])

            午餐  晚餐
2017-10-28  85  80
2017-10-29  50  55
2017-10-30  85  60


In [174]:
# 判斷、篩選
print(df1[df1.午餐>80])

            早餐  午餐  晚餐
2017-10-28  80  85  80
2017-10-30  80  85  60


In [175]:
df1.iloc[2,2] = 195
df1.loc['20171102','晚餐'] = 60
df1.晚餐[df1.早餐>80] = 40
df1.loc['20171029','午餐'] = np.nan

print(df1)

            早餐    午餐   晚餐
2017-10-28  80  85.0   80
2017-10-29  85   NaN   40
2017-10-30  80  85.0  195
2017-10-31  90  55.0   40
2017-11-01  60  50.0   70
2017-11-02  80  75.0   60
2017-11-03  95  60.0   40
