# Numpy

## 建立基本陣列

In [1]:
import numpy as np
np1 = np.array([1,2,3,4])		#使用list
np2 = np.array((5,6,7,8))		#使用tuple
print(np1)
print(np2)
print(type(np1), type(np2))

[1 2 3 4]
[5 6 7 8]
<class 'numpy.ndarray'> <class 'numpy.ndarray'>


In [2]:
import numpy as np
na = np.arange(0, 31, 2)
print(na)

[ 0  2  4  6  8 10 12 14 16 18 20 22 24 26 28 30]


In [3]:
import numpy as np
na = np.linspace(1, 15, 3)
print(na)

[ 1.  8. 15.]


In [4]:
import numpy as np
a = np.zeros((5,))
print(a)

[0. 0. 0. 0. 0.]


In [5]:
import numpy as np
b = np.ones((5,))
print(b)

[1. 1. 1. 1. 1.]


## 建立多維陣列

In [6]:
import numpy as np
listdata = [[1,2,3,4,5],
       [6,7,8,9,10]]
na = np.array(listdata)
print(na)
print('維度', na.ndim)
print('形狀', na.shape)
print('數量', na.size)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
維度 2
形狀 (2, 5)
數量 10


## 改變陣列形狀：reshape()

In [7]:
import numpy as np
adata = np.arange(1,17)
print(adata)
bdata = adata.reshape(4,4)
print(bdata)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16]
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]]


## 一維陣列取值

In [8]:
import numpy as np
na = np.arange(0,6)
print(na)
print(na[0])
print(na[5])
print(na[1:5])
print(na[1:5:2])
print(na[5:1:-1])
print(na[:])
print(na[:3])
print(na[3:])

[0 1 2 3 4 5]
0
5
[1 2 3 4]
[1 3]
[5 4 3 2]
[0 1 2 3 4 5]
[0 1 2]
[3 4 5]


## 多維陣列取值

In [9]:
import numpy as np
na = np.arange(1, 17).reshape(4, 4)
na

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [10]:
na[2, 3]

12

In [11]:
print(na[1, 1:3])			#[6,7]
print(na[1:3, 2])			#[7,11]
print(na[1:3, 1:3])		#[[6,7],[7,11]]
print(na[::2, ::2])		#[[1,3],[9,11]]
print(na[:, 2])				#[3,7,11,15]
print(na[1, :])				#[5,6,7,8]
print(na[:, :])				#矩陣全部

[6 7]
[ 7 11]
[[ 6  7]
 [10 11]]
[[ 1  3]
 [ 9 11]]
[ 3  7 11 15]
[5 6 7 8]
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]]


## 產生隨機資料:np.ramdom()

In [12]:
import numpy as np
print('1.產生2x3 0~1之間的隨機浮點數\n',
      np.random.rand(2,3))
print('2.產生2x3常態分佈的隨機浮點數\n',
      np.random.randn(2,3))
print('3.產生0~4(不含5)隨機整數\n',
      np.random.randint(5))
print('4.產生2~4(不含5)5個隨機整數\n',
      np.random.randint(2,5,[5]))
print('5.產生3個 0~1之間的隨機浮點數\n',
      np.random.random(3),'\n',
      np.random.random_sample(3),'\n',
      np.random.sample(3))

1.產生2x3 0~1之間的隨機浮點數
 [[0.06050003 0.93301425 0.71076991]
 [0.84010536 0.28689356 0.22762804]]
2.產生2x3常態分佈的隨機浮點數
 [[-1.17077405 -0.59738168 -0.10755275]
 [ 0.66430635 -0.35948383  0.47755052]]
3.產生0~4(不含5)隨機整數
 0
4.產生2~4(不含5)5個隨機整數
 [2 2 2 3 4]
5.產生3個 0~1之間的隨機浮點數
 [0.74134004 0.3726241  0.84656695] 
 [0.11238613 0.08427853 0.56516163] 
 [0.93530103 0.4546523  0.89867011]


## Numpy讀取CSV 檔案

In [13]:
import numpy as np
na = np.genfromtxt('scores.csv', delimiter=',', skip_header=1)
print(na.shape)

(30, 4)


## Numpy陣列運算

In [14]:
import numpy as np
a = np.arange(1,10).reshape(3,3)
b = np.arange(10,19).reshape(3,3)
print('a 陣列內容：\n', a)
print('b 陣列內容：\n', b)

a 陣列內容：
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
b 陣列內容：
 [[10 11 12]
 [13 14 15]
 [16 17 18]]


In [15]:
print('a 陣列元素都加值：\n', a + 1)

a 陣列元素都加值：
 [[ 2  3  4]
 [ 5  6  7]
 [ 8  9 10]]


In [16]:
print('a 陣列元素都平方：\n', a ** 2)

a 陣列元素都平方：
 [[ 1  4  9]
 [16 25 36]
 [49 64 81]]


In [17]:
print('a 陣列元素加判斷：\n', a < 5)

a 陣列元素加判斷：
 [[ True  True  True]
 [ True False False]
 [False False False]]


In [18]:
print('a 陣列取出第一個row都加1：\n', a[0,:] + 1)
print('a 陣列取出第一個col都加1：\n', a[:,0] + 1)

a 陣列取出第一個row都加1：
 [2 3 4]
a 陣列取出第一個col都加1：
 [2 5 8]


In [19]:
print('a b 陣列對應元素相加：\n', a + b)
print('a b 陣列對應元素相乘：\n', a * b)

a b 陣列對應元素相加：
 [[11 13 15]
 [17 19 21]
 [23 25 27]]
a b 陣列對應元素相乘：
 [[ 10  22  36]
 [ 52  70  90]
 [112 136 162]]


In [20]:
print('a b 陣列內積計算：\n', np.dot(a,b))

a b 陣列內積計算：
 [[ 84  90  96]
 [201 216 231]
 [318 342 366]]


## Numpy常用的計算及統計函式

In [21]:
import numpy as np
a = np.arange(1,10).reshape(3,3)
print('陣列的內容：\n', a)
print('1.最小值與最大值：\n',
      np.min(a), np.max(a))
print('2.每一直行最小值與最大值：\n',
      np.min(a, axis=0), np.max(a, axis=0))
print('3.每一橫列最小值與最大值：\n',
      np.min(a, axis=1), np.max(a, axis=1))
print('4.加總、乘積及平均值：\n',
      np.sum(a), np.prod(a), np.mean(a))
print('5.每一直行加總、乘積與平均值：\n',
      np.sum(a, axis=0), np.prod(a, axis=0), np.mean(a, axis=0))
print('6.每一橫列加總、乘積與平均值：\n',
      np.sum(a, axis=1), np.prod(a, axis=1), np.mean(a, axis=1))

陣列的內容：
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
1.最小值與最大值：
 1 9
2.每一直行最小值與最大值：
 [1 2 3] [7 8 9]
3.每一橫列最小值與最大值：
 [1 4 7] [3 6 9]
4.加總、乘積及平均值：
 45 362880 5.0
5.每一直行加總、乘積與平均值：
 [12 15 18] [ 28  80 162] [4. 5. 6.]
6.每一橫列加總、乘積與平均值：
 [ 6 15 24] [  6 120 504] [2. 5. 8.]


In [22]:
import numpy as np
a = np.random.randint(100,size=50)
print('陣列的內容：', a)
print('1.標準差：', np.std(a))
print('2.變異數：', np.var(a))
print('3.中位數：', np.median(a))
print('4.百分比值：', np.percentile(a, 80))
print('5.最大最小差值：', np.ptp(a))

陣列的內容： [56 30  3 80 50 86 70 25 60 46 88 47 10 59  1 72 64 15 92 78 56 44  5  4
 51 56 94 30 28 62 31 15 21 76 95 97 16 29 72 45 24 24 30 35 63 88 32 64
 40 46]
1.標準差： 27.08228203087768
2.變異數： 733.45
3.中位數： 46.5
4.百分比值： 72.80000000000001
5.最大最小差值： 96


## Numpy的排序

In [23]:
import numpy as np
a = np.random.choice(50, size=10, replace=False)
print('排序前的陣列：', a)
print('排序後的陣列：', np.sort(a))
print('排序後的索引：', np.argsort(a))
#用索引到陣列取值
for i in np.argsort(a):
    print(a[i], end=',')

排序前的陣列： [ 6  3 20 25 27 24 17 28 23 29]
排序後的陣列： [ 3  6 17 20 23 24 25 27 28 29]
排序後的索引： [1 0 6 2 8 5 3 4 7 9]
3,6,17,20,23,24,25,27,28,29,

In [24]:
import numpy as np
a = np.random.randint(0,10,(3,5))
print('原陣列內容：')
print(a)
print('將每一直行進行排序：')
print(np.sort(a, axis=0))
print('將每一橫列進行排序：')
print(np.sort(a, axis=1))

原陣列內容：
[[4 7 7 8 0]
 [8 0 2 2 5]
 [6 5 1 0 9]]
將每一直行進行排序：
[[4 0 1 0 0]
 [6 5 2 2 5]
 [8 7 7 8 9]]
將每一橫列進行排序：
[[0 4 7 7 8]
 [0 2 2 5 8]
 [0 1 5 6 9]]


# Pandas

In [25]:
!pip install pandas

[0m

## 建立Series

In [26]:
import pandas as pd
se = pd.Series([1,2,3,4,5])
print(se)           #顯示Series
print(se.values)    #顯示值
print(se.index)     #顯示索引

0    1
1    2
2    3
3    4
4    5
dtype: int64
[1 2 3 4 5]
RangeIndex(start=0, stop=5, step=1)


In [27]:
import pandas as pd
dict1 = {'Taipei': '台北', 'Taichung': '台中', 'Kaohsiung': '高雄'}
se = pd.Series(dict1)
print(se)           #顯示Series
print(se.values)    #顯示值
print(se.index)     #顯示索引
print(se['Taipei']) #用索引取值

Taipei       台北
Taichung     台中
Kaohsiung    高雄
dtype: object
['台北' '台中' '高雄']
Index(['Taipei', 'Taichung', 'Kaohsiung'], dtype='object')
台北


In [28]:
print(se['Taichung':'Kaohsiung'])

Taichung     台中
Kaohsiung    高雄
dtype: object


## Series資料取值

In [29]:
import pandas as pd
se = pd.Series([1,2,3,4,5])
se[2]

3

In [30]:
import pandas as pd
se = pd.Series([1,2,3,4,5], index=['a','b','c','d','e'])
se['b']

2

## 建立DataFrame

In [31]:
import pandas as pd
df = pd.DataFrame([[65,92,78,83,70], 
                   [90,72,76,93,56], 
                   [81,85,91,89,77], 
                   [79,53,47,94,80]])
df

Unnamed: 0,0,1,2,3,4
0,65,92,78,83,70
1,90,72,76,93,56
2,81,85,91,89,77
3,79,53,47,94,80


In [32]:
import pandas as pd
df = pd.DataFrame([[65,92,78,83,70], 
                   [90,72,76,93,56], 
                   [81,85,91,89,77], 
                   [79,53,47,94,80]],
                   index=['王小明','李小美','陳大同','林小玉'],
                   columns=['國文','英文','數學','自然','社會'])
df

Unnamed: 0,國文,英文,數學,自然,社會
王小明,65,92,78,83,70
李小美,90,72,76,93,56
陳大同,81,85,91,89,77
林小玉,79,53,47,94,80


## 利用字典建立DataFrame

In [33]:
import pandas as pd
scores = {'國文':{'王小明':65,'李小美':90,'陳大同':81,'林小玉':79},
          '英文':{'王小明':92,'李小美':72,'陳大同':85,'林小玉':53},
          '數學':{'王小明':78,'李小美':76,'陳大同':91,'林小玉':47},
          '自然':{'王小明':83,'李小美':93,'陳大同':89,'林小玉':94},
          '社會':{'王小明':70,'李小美':56,'陳大同':94,'林小玉':80}}
df = pd.DataFrame(scores)
df

Unnamed: 0,國文,英文,數學,自然,社會
王小明,65,92,78,83,70
李小美,90,72,76,93,56
陳大同,81,85,91,89,94
林小玉,79,53,47,94,80


## 利用Series建立DataFrame

In [34]:
import pandas as pd
se1 = pd.Series({'王小明':65,'李小美':90,'陳大同':81,'林小玉':79})
se2 = pd.Series({'王小明':92,'李小美':72,'陳大同':85,'林小玉':53})
se3 = pd.Series({'王小明':78,'李小美':76,'陳大同':91,'林小玉':47})
se4 = pd.Series({'王小明':83,'李小美':93,'陳大同':89,'林小玉':94})
se5 = pd.Series({'王小明':70,'李小美':56,'陳大同':94,'林小玉':80})
df = pd.DataFrame({ '國文':se1,'英文':se2,'數學':se3,
                   '自然':se4,'社會':se5} )
df

Unnamed: 0,國文,英文,數學,自然,社會
王小明,65,92,78,83,70
李小美,90,72,76,93,56
陳大同,81,85,91,89,94
林小玉,79,53,47,94,80


In [35]:
import pandas as pd
se1 = pd.Series({'王小明':65,'李小美':90,'陳大同':81,'林小玉':79})
se2 = pd.Series({'王小明':92,'李小美':72,'陳大同':85,'林小玉':53})
se3 = pd.Series({'王小明':78,'李小美':76,'陳大同':91,'林小玉':47})
se4 = pd.Series({'王小明':83,'李小美':93,'陳大同':89,'林小玉':94})
se5 = pd.Series({'王小明':70,'李小美':56,'陳大同':94,'林小玉':80})
df = pd.concat([se1,se2,se3,se4,se5], axis=1)
df.columns=['國文','英文','數學','自然','社會']
df

Unnamed: 0,國文,英文,數學,自然,社會
王小明,65,92,78,83,70
李小美,90,72,76,93,56
陳大同,81,85,91,89,94
林小玉,79,53,47,94,80


## DataFrame基本取值

In [36]:
df["自然"]

王小明    83
李小美    93
陳大同    89
林小玉    94
Name: 自然, dtype: int64

In [37]:
df[["國文", "數學", "自然"]]

Unnamed: 0,國文,數學,自然
王小明,65,78,83
李小美,90,76,93
陳大同,81,91,89
林小玉,79,47,94


In [38]:
df[df["國文"] >= 80]

Unnamed: 0,國文,英文,數學,自然,社會
李小美,90,72,76,93,56
陳大同,81,85,91,89,94


In [39]:
df.values

array([[65, 92, 78, 83, 70],
       [90, 72, 76, 93, 56],
       [81, 85, 91, 89, 94],
       [79, 53, 47, 94, 80]])

In [40]:
df.values[1]

array([90, 72, 76, 93, 56])

In [41]:
df.values[1][2]

76

## 以索引及欄位名稱取得資料：df.loc()

In [42]:
df.loc["林小玉", "社會"]

80

In [43]:
df.loc["王小明", ["國文","社會"]]

國文    65
社會    70
Name: 王小明, dtype: int64

In [44]:
df.loc[["王小明", "李小美"], ["數學", "自然"]]

Unnamed: 0,數學,自然
王小明,78,83
李小美,76,93


In [45]:
df.loc["王小明":"陳大同", "數學":"社會"]

Unnamed: 0,數學,自然,社會
王小明,78,83,70
李小美,76,93,56
陳大同,91,89,94


In [46]:
df.loc["陳大同", :]

國文    81
英文    85
數學    91
自然    89
社會    94
Name: 陳大同, dtype: int64

In [47]:
df.loc[:"李小美", "數學":"社會"]

Unnamed: 0,數學,自然,社會
王小明,78,83,70
李小美,76,93,56


In [48]:
df.loc["李小美":, "數學":"社會"]

Unnamed: 0,數學,自然,社會
李小美,76,93,56
陳大同,91,89,94
林小玉,47,94,80


## 以索引及欄位編號取得資料：df.iloc()

In [49]:
df.iloc[3, 4]

80

In [50]:
df.iloc[0, [0, 4]]

國文    65
社會    70
Name: 王小明, dtype: int64

In [51]:
df.iloc[[0, 1], [2, 3]]

Unnamed: 0,數學,自然
王小明,78,83
李小美,76,93


In [52]:
df.iloc[0:3, 2:5]

Unnamed: 0,數學,自然,社會
王小明,78,83,70
李小美,76,93,56
陳大同,91,89,94


In [53]:
df.iloc[2, :]

國文    81
英文    85
數學    91
自然    89
社會    94
Name: 陳大同, dtype: int64

In [54]:
df.iloc[:2, 2:5]

Unnamed: 0,數學,自然,社會
王小明,78,83,70
李小美,76,93,56


In [55]:
df.iloc[1:, 2:5]

Unnamed: 0,數學,自然,社會
李小美,76,93,56
陳大同,91,89,94
林小玉,47,94,80


## 取得最前或最後幾列資料

In [56]:
df.head(2)

Unnamed: 0,國文,英文,數學,自然,社會
王小明,65,92,78,83,70
李小美,90,72,76,93,56


In [57]:
df.tail(2)

Unnamed: 0,國文,英文,數學,自然,社會
陳大同,81,85,91,89,94
林小玉,79,53,47,94,80


## DataFrame資料排序

In [58]:
df.sort_values(by="數學", ascending=False)

Unnamed: 0,國文,英文,數學,自然,社會
陳大同,81,85,91,89,94
王小明,65,92,78,83,70
李小美,90,72,76,93,56
林小玉,79,53,47,94,80


In [59]:
df.sort_index(axis=0)

Unnamed: 0,國文,英文,數學,自然,社會
李小美,90,72,76,93,56
林小玉,79,53,47,94,80
王小明,65,92,78,83,70
陳大同,81,85,91,89,94


## DataFrame資料修改

In [60]:
df.loc["王小明"]["數學"] = 90
df

Unnamed: 0,國文,英文,數學,自然,社會
王小明,65,92,90,83,70
李小美,90,72,76,93,56
陳大同,81,85,91,89,94
林小玉,79,53,47,94,80


In [61]:
df.loc["王小明", :] = 80
df

Unnamed: 0,國文,英文,數學,自然,社會
王小明,80,80,80,80,80
李小美,90,72,76,93,56
陳大同,81,85,91,89,94
林小玉,79,53,47,94,80


## 刪除DataFrame資料

In [62]:
df.drop("王小明")

Unnamed: 0,國文,英文,數學,自然,社會
李小美,90,72,76,93,56
陳大同,81,85,91,89,94
林小玉,79,53,47,94,80


In [63]:
df.drop("數學", axis=1)

Unnamed: 0,國文,英文,自然,社會
王小明,80,80,80,80
李小美,90,72,93,56
陳大同,81,85,89,94
林小玉,79,53,94,80


In [64]:
df.drop(["數學", "自然"], axis=1)

Unnamed: 0,國文,英文,社會
王小明,80,80,80
李小美,90,72,56
陳大同,81,85,94
林小玉,79,53,80


In [65]:
df.drop(df.index[1:4])

Unnamed: 0,國文,英文,數學,自然,社會
王小明,80,80,80,80,80


In [None]:
df.drop(df.columns[1:4], axis=1)