# 關於跳脫字元符號
+ 由於正規表示式使用\符號針對特殊字元進行轉換，例如若想要查詢這個字串 'pcschool.com'，我們使用的正規表示式方式為 'pcschool\.com'。
+ Python 的字串也是使用\符號進行特殊字元轉換，上述的正規表示式於Python 內可寫成 'pcschool\\.com' ，如此寫法會有很多 \ 符號出現的困擾。
+ 建議可於字串前面加上 r 的前導符號就可以，所以上面的範例可改為：
 'r'python\.com' 

In [14]:
print(r"\"ASSSS\"")

\"ASSSS\"


## findall 方法
+ findall(搜尋字串,起始位置,結束位置)
  + 找到所有符合正則表達式的內容
  + 起始位置與結束位置是可選擇的參數，預設值分別為 0 與字串長度。
  + findall 將以 list 方式傳回所有可以比對的資料，若找不到可以比對的資料則會傳回一個空的 list。

## 設定跳脫與首尾
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

In [15]:
import re
s = "Tim's phone numbers are 12345-41521 and 78963-85214"
match = re.findall(r'\d',s)
if match:
    print(match)

['1', '2', '3', '4', '5', '4', '1', '5', '2', '1', '7', '8', '9', '6', '3', '8', '5', '2', '1', '4']


## 計算字元數
+ 定義字元數  
![image.png](attachment:image.png)

In [16]:
import re
s = "Tim's phone numbers are 12345-41521 and 78963-85214"
match = re.findall(r'\d{5}',s)
if match:
    print(match)

['12345', '41521', '78963', '85214']


## 依據尋找的字元範圍
![image.png](attachment:image.png)

In [21]:
import re
#ptn = r"r[au]n "
#ptn = r"r[au]n"
#ptn = r"r[a-u]n"#r到n中間可以是a b c d e f g h i j h l m n o p q r s t u 之間的任意一個
ptn = r"r[a-u]{1,3}n" #r到n中間可以是a b c d e f g h i j h l m n o p q r s t u 之間的任意一個
print(re.findall(ptn, "dog ran  runs to cat rain rin"))


['ran', 'run', 'rain', 'rin']


In [25]:
import re
string1="1dog  cat2  3rabbit "
print(re.findall(r"[A-Z]",string1))
print(re.findall(r"[a-c]",string1))
print(re.findall(r"[0-9]",string1))
print(re.findall(r"[^a-c]",string1))


[]
['c', 'a', 'a', 'b', 'b']
['1', '2', '3']
['1', 'd', 'o', 'g', ' ', ' ', 't', '2', ' ', ' ', '3', 'r', 'i', 't', ' ']


## 計算重複數量
![image.png](attachment:image.png)

In [29]:
import re
pattern = re.compile(r'\d+')
result1 = pattern.findall("hello 123456 789")
result2 = pattern.findall("one1two2three3four4",0,13)
print(result1)
print(result2)

['123456', '789']
['1', '2']


In [38]:
import re
str1="abc1d abcdd abc2b abc aaaa"
print(re.findall(r"abcd?",str1))
print(re.findall(r"abcd*",str1))
print(re.findall(r"abc\d+",str1))
print(re.findall(r"[a-c]{3}",str1))
print(re.findall(r"[a-c]{1,4}",str1))
print(re.findall(r"[a-c]{4,}",str1))

['abc', 'abcd', 'abc', 'abc']
['abc', 'abcdd', 'abc', 'abc']
['abc1', 'abc2']
['abc', 'abc', 'abc', 'abc', 'aaa']
['abc', 'abc', 'abc', 'b', 'abc', 'aaaa']
['aaaa']


## 請問執行後的結果是哪幾個？

In [39]:
string1="C++ Python Java C# Sqlite Django Numpy Pandas "
print(re.findall(r"[p-t]",string1))#p q r s t 

['t', 'q', 't', 'p', 's']


## split 方法
+ split 方法能以比對規則針對字串進行切割後產生 list。
+ split 它的使用形式如下：
+ split(字串,最大分割次數)
   + 若不指定最大分割次數則全部分割

In [42]:
import re
text = 'one, two...ten'
re1 = re.split('[,. ]+',text)
print(re1)
re1 = re.split('[,. ]+',text,maxsplit=1)
print(re1)

['one', 'two', 'ten']
['one', 'two...ten']


## sub 方法
+ sub 方法用於替換，它的使用形式如下
  + sub(取代的字串或函數,來源字串,可設定被取代的數量)
+ 可設定被取代的數量若不指定時全部替換。

In [44]:
import re
inputStr = "hello 123 world 456"
replacedStr = re.sub('\d+',"222",inputStr)
print(replacedStr)
replacedStr = re.sub('\d+',"222",inputStr,count=1)
print(replacedStr)

hello 222 world 222
hello 222 world 456


## 請問執行後的結果是哪幾個？

In [45]:
import re
inputStr = "1970,C language,1990,python"
replacedStr = re.sub("\d+", "2018", inputStr)
print(replacedStr)

2018,C language,2018,python


# 切割與合併

## row 的切割與合併
+ row 代表第一維，代表 axis=0，也可說水平的一列一列。
+ 可使用 vsplit 方式進行切割，可指定要切割的數量。
   + 回傳一組list內包含 ndArray
+ 可使用 vstack 方式進行合併。

## column 的切割與合併
+ column 代表第二維，代表 axis=1，也可說垂直的一行一行。
+ 可使用 hsplit 方式進行切割，可指定要切割的數量。
+ 可使用 hstack 方式進行合併。

In [58]:
import numpy as np
a = np.arange(12).reshape(3, 4)
print(a)
print("=========================")
print(np.vsplit(a,3))
print(np.vsplit(a,3)[1])
print("---------------")
print(type(np.vsplit(a,3)))
print("---------------")
b = np.arange(12,24).reshape(3,4)
print(b)
print("==================")
c = np.vstack((a,b))
print(c)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[array([[0, 1, 2, 3]]), array([[4, 5, 6, 7]]), array([[ 8,  9, 10, 11]])]
[[4 5 6 7]]
---------------
<class 'list'>
---------------
[[12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]]


In [66]:
import numpy as np
a = np.arange(12).reshape(3, 4)
print(a)
print("=========================")
print(np.hsplit(a,4))
print("=========================")
print(np.hsplit(a,2))
b = np.arange(12,24).reshape(3, 4)
print(b)
print("=========================")
c = np.hstack((a,b))
print(c)


[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[array([[0],
       [4],
       [8]]), array([[1],
       [5],
       [9]]), array([[ 2],
       [ 6],
       [10]]), array([[ 3],
       [ 7],
       [11]])]
[array([[0, 1],
       [4, 5],
       [8, 9]]), array([[ 2,  3],
       [ 6,  7],
       [10, 11]])]
[[12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]]
[[ 0  1  2  3 12 13 14 15]
 [ 4  5  6  7 16 17 18 19]
 [ 8  9 10 11 20 21 22 23]]


## 可選擇行列分合
+ split 代表切割的動作：
  + 若 axis 為 0 代表 row 切割，等同於 vsplit。
  + 若 axis 為 1 代表 column 切割，等同於 hsplit。
  + np.split(a,3,axis=0) #3 代表切割數。
+ concatenate 代表進行合併：
  + 若 axis 為 0 代表 row 合併，等同於 vstack。
  + 若 axis 為 1 代表 column 合併，等同於 hstack。

In [69]:
import numpy as np
a = np.arange(12).reshape(3, 4)
print(a)
print("========================")
print(np.split(a,3,axis=0))
print("========================")
print(np.split(a,2,axis=1))
print("========================")

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[array([[0, 1, 2, 3]]), array([[4, 5, 6, 7]]), array([[ 8,  9, 10, 11]])]
[array([[0, 1],
       [4, 5],
       [8, 9]]), array([[ 2,  3],
       [ 6,  7],
       [10, 11]])]


In [72]:
import numpy as np
a = np.arange(12).reshape(3, 4)
b = np.arange(12,24).reshape(3, 4)
print(a)
print("===================")
print(b)
c = np.concatenate((a,b),axis=0)
print("===================")
print(c)
print("===================")
c = np.concatenate((a,b),axis=1)
print(c)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]]
[[ 0  1  2  3 12 13 14 15]
 [ 4  5  6  7 16 17 18 19]
 [ 8  9 10 11 20 21 22 23]]


## 不等量切割
+ 利用 array_split 方法進行不等量的切割。
+ 例如：
  + np.array_split(a,3,axis=1) 3 代表切割數
  + 對於長度為x的Array，分割成n個部分，它返回x % n個大小為(x // n) + 1的子Array，以及其他大小為(x // n)的子Array。

In [75]:
import numpy as np
a = np.arange(12).reshape(3,4)
print(a)
print(np.array_split(a,2,axis=0))
print(np.array_split(a,3,axis=1))

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[array([[0, 1, 2, 3],
       [4, 5, 6, 7]]), array([[ 8,  9, 10, 11]])]
[array([[0, 1],
       [4, 5],
       [8, 9]]), array([[ 2],
       [ 6],
       [10]]), array([[ 3],
       [ 7],
       [11]])]


# 遺失與重複值處理

## 判斷遺失值產生原因
+ 有些資訊是暫時無法讀取。
+ 有些資訊是被遺漏。
+ 有些對象的某些屬性特徵是不存在。
+ 有些資訊被認為不重要。
+ 操作這些資訊的代價太大而被遺棄。

## 遺失值處理
+ 使用 reindexing，我們創建了一個缺失值的 DataFrame。在輸出中，NaN 表示不是數字。
檢查缺失值
+ 為了更容易地檢測缺失值以及避免受到資料類型干擾，Pandas 提供了 isnull( ) 和 notnull( ) 函數。

In [76]:
import pandas as pd
import  numpy as np
from io import  StringIO
csv_data='''
A,B,C,D
1.0,2.0,3.5,4
5.5,34,3.4
10,,11.5,8.5
'''
df = pd.read_csv(StringIO(csv_data))
print(df)

      A     B     C    D
0   1.0   2.0   3.5  4.0
1   5.5  34.0   3.4  NaN
2  10.0   NaN  11.5  8.5


In [82]:
import pandas as pd
import  numpy as np
from io import  StringIO
csv_data='''
A,B,C,D
2,3,4,5
6,34,6
10,,11,8
'''
df=pd.read_csv(StringIO(csv_data))
print(df)
print(df[['A']].sum())
print(df[['B']].sum())
print(df[['A']].mean())
print(df[['B']].mean())
print(df[['A']].count())
print(df[['B']].count())
print(df.isnull().sum())

    A     B   C    D
0   2   3.0   4  5.0
1   6  34.0   6  NaN
2  10   NaN  11  8.0
A    18
dtype: int64
B    37.0
dtype: float64
A    6.0
dtype: float64
B    18.5
dtype: float64
A    3
dtype: int64
B    2
dtype: int64
A    0
B    1
C    0
D    1
dtype: int64


## 丟棄遺失值
+ 您可以使用 dropna 方法再搭配 axis 參數方式進行搭配。
+ 默認情況下，預設為 axis = 0，也就是會沿著 Rows 進行，當發現到任何值為 NA 就會整個 Row 刪除。
+ 若加入參數 how=‘all’ 代表整個 Row 資料都是遺失值情況下才可以刪除丟棄。
+ 加入參數 thresh=N 代表刪除包含少於 N 個觀察值的 row。

In [87]:
import pandas as pd
import  numpy as np
from io import  StringIO
csv_data='''
A,B,C,D
2,3,4,5
6,34,6
10,,11,8
,,,
3,3,,
,5,,
'''
df=pd.read_csv(StringIO(csv_data))
print(df)
print("==============")
df1 = df.dropna(axis = 0) #只要一個row是Nan就移除
print(df1)
print("==============")
df1 = df.dropna(axis= 1)
print(df1)
print("==============")
df1 = df.dropna(axis=0,how="all")
print(df1)
print("==============")
print(df1.reset_index(drop=True))

      A     B     C    D
0   2.0   3.0   4.0  5.0
1   6.0  34.0   6.0  NaN
2  10.0   NaN  11.0  8.0
3   NaN   NaN   NaN  NaN
4   3.0   3.0   NaN  NaN
5   NaN   5.0   NaN  NaN
     A    B    C    D
0  2.0  3.0  4.0  5.0
Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 4, 5]
      A     B     C    D
0   2.0   3.0   4.0  5.0
1   6.0  34.0   6.0  NaN
2  10.0   NaN  11.0  8.0
4   3.0   3.0   NaN  NaN
5   NaN   5.0   NaN  NaN
      A     B     C    D
0   2.0   3.0   4.0  5.0
1   6.0  34.0   6.0  NaN
2  10.0   NaN  11.0  8.0
3   3.0   3.0   NaN  NaN
4   NaN   5.0   NaN  NaN


In [95]:
import pandas as pd
import  numpy as np
from io import  StringIO
csv_data='''
A,B,C,D
2,3,4,5
6,34,6
10,,11,8
,,,
3,3,,
,5,,
'''
df=pd.read_csv(StringIO(csv_data))
print(df)
print("========================")
df1 = df.dropna(thresh=3) #非NAN的數值>=thresh
print(df1)
print("========================")
df1 = df.dropna(subset=['C','D'])
print(df1)
print("========================")

      A     B     C    D
0   2.0   3.0   4.0  5.0
1   6.0  34.0   6.0  NaN
2  10.0   NaN  11.0  8.0
3   NaN   NaN   NaN  NaN
4   3.0   3.0   NaN  NaN
5   NaN   5.0   NaN  NaN
      A     B     C    D
0   2.0   3.0   4.0  5.0
1   6.0  34.0   6.0  NaN
2  10.0   NaN  11.0  8.0
      A    B     C    D
0   2.0  3.0   4.0  5.0
2  10.0  NaN  11.0  8.0


## 填充遺失值
+ 可使用 fillna 函數進行填充
  + 輸入要填充的數值
    + 補上中位數：建議補上中位數而非平均值，這樣相對來說不會受到極端值的影響。
    + 根據原本的資料分布補上亂數。
+ 以下兩種方式可以向後或者向前進行填充
   + pad/ffill          代表向後填充
   + bfill/backfill   代表向前填充

In [99]:
import pandas as pd
import  numpy as np
from io import  StringIO
csv_data='''
A,B,C,D
2,3,4,5
6,34,6
10,,11,8
,,,
3,3,,
,5,,
'''
df=pd.read_csv(StringIO(csv_data))
print(df)
print("=====================")
df1  = df.fillna(0)
print(df1)
print("=====================")
med = df.median()
print(med)
df2 = df.fillna(med)
print(df2)

      A     B     C    D
0   2.0   3.0   4.0  5.0
1   6.0  34.0   6.0  NaN
2  10.0   NaN  11.0  8.0
3   NaN   NaN   NaN  NaN
4   3.0   3.0   NaN  NaN
5   NaN   5.0   NaN  NaN
      A     B     C    D
0   2.0   3.0   4.0  5.0
1   6.0  34.0   6.0  0.0
2  10.0   0.0  11.0  8.0
3   0.0   0.0   0.0  0.0
4   3.0   3.0   0.0  0.0
5   0.0   5.0   0.0  0.0
A    4.5
B    4.0
C    6.0
D    6.5
dtype: float64
      A     B     C    D
0   2.0   3.0   4.0  5.0
1   6.0  34.0   6.0  6.5
2  10.0   4.0  11.0  8.0
3   4.5   4.0   6.0  6.5
4   3.0   3.0   6.0  6.5
5   4.5   5.0   6.0  6.5


In [102]:
import pandas as pd
import  numpy as np
from io import  StringIO
csv_data='''
A,B,C,D
2,3,4,5
6,34,6
10,,11,8
,,,
3,3,,
,5,,
'''
df=pd.read_csv(StringIO(csv_data))
print(df)
print("=================")
df1 = df.fillna(0,limit=1)
print(df1)
med = df.median()
print(med)
print("======================")
df2 = df.fillna(med,limit=1)
print(df2)

      A     B     C    D
0   2.0   3.0   4.0  5.0
1   6.0  34.0   6.0  NaN
2  10.0   NaN  11.0  8.0
3   NaN   NaN   NaN  NaN
4   3.0   3.0   NaN  NaN
5   NaN   5.0   NaN  NaN
      A     B     C    D
0   2.0   3.0   4.0  5.0
1   6.0  34.0   6.0  0.0
2  10.0   0.0  11.0  8.0
3   0.0   NaN   0.0  NaN
4   3.0   3.0   NaN  NaN
5   NaN   5.0   NaN  NaN
A    4.5
B    4.0
C    6.0
D    6.5
dtype: float64
      A     B     C    D
0   2.0   3.0   4.0  5.0
1   6.0  34.0   6.0  6.5
2  10.0   4.0  11.0  8.0
3   4.5   NaN   6.0  NaN
4   3.0   3.0   NaN  NaN
5   NaN   5.0   NaN  NaN
