# 資料清理

## 用 pandas 讀入 excel 進行處理。

* 資料轉換：民國年->西元年
* 別名統一化 : 台大，臺大，台灣大學，國立台灣大學
* 舊名換新名：高雄縣->高雄市, 台北縣->新北市
* 資料型態異常：０９２０１２３４５６ -> 0920123456
* 不規範的日期格式，民國西元混雜
* 遺失值的處理


## 讀取 excel 檔案

In [126]:
import pandas as pd
basepath = 'datas/'

df = pd.read_excel(basepath + '原始資料表.xlsx')
df

Unnamed: 0,編號,姓名,生日,性別,日期
0,A0001,吳佩如,1985-06-22,男,103/04
1,A0002,黃啟倩,1982-03-09,女,103年4月25號
2,A0003,李建真,1977-11-04,女,103年4月
3,A0004,葉怡毓,1982-10-30,男,0103年6月25日
4,A0005,郭怡珊,1988-03-27,女,
5,A0006,黃金鳳,1987-06-06,女,100年4月
6,A0007,陳承娟,1981-01-25,女,88.11
7,A0008,林俊明,1983-07-01,女,103/05
8,A0009,陳秀福,1986-10-30,男,
9,A0010,溫素貞,1977-02-07,女,93. 06.


## 丟掉 NaN 的 row

In [127]:
# 丟掉有 NaN 的 row
df.dropna()

Unnamed: 0,編號,姓名,生日,性別,日期
0,A0001,吳佩如,1985-06-22,男,103/04
1,A0002,黃啟倩,1982-03-09,女,103年4月25號
2,A0003,李建真,1977-11-04,女,103年4月
3,A0004,葉怡毓,1982-10-30,男,0103年6月25日
5,A0006,黃金鳳,1987-06-06,女,100年4月
6,A0007,陳承娟,1981-01-25,女,88.11
7,A0008,林俊明,1983-07-01,女,103/05
9,A0010,溫素貞,1977-02-07,女,93. 06.
10,A0011,劉莉雯,1992-05-30,女,104年4月
11,A0012,張雅倩,1983-11-10,女,990430


## 把 NaN 的值全部指定為一個特定值

In [129]:
# NaN 的值統一設定成某一個特定資料。

df.日期 = df[['日期']].fillna('20171215')
df.head(10)

Unnamed: 0,編號,姓名,生日,性別,日期
0,A0001,吳佩如,1985-06-22,男,103/04
1,A0002,黃啟倩,1982-03-09,女,103年4月25號
2,A0003,李建真,1977-11-04,女,103年4月
3,A0004,葉怡毓,1982-10-30,男,0103年6月25日
4,A0005,郭怡珊,1988-03-27,女,20171215
5,A0006,黃金鳳,1987-06-06,女,100年4月
6,A0007,陳承娟,1981-01-25,女,88.11
7,A0008,林俊明,1983-07-01,女,103/05
8,A0009,陳秀福,1986-10-30,男,20171215
9,A0010,溫素貞,1977-02-07,女,93. 06.


## 姓名馬賽克

In [131]:
# 姓名馬賽克
names = []
for name in df.姓名:
    names.append(name[0]+"O"+name[2])

df.姓名 = names
df.head()

Unnamed: 0,編號,姓名,生日,性別,日期,pattern
0,A0001,吳O如,1985-06-22,男,103/04,False
1,A0002,黃O倩,1982-03-09,女,103年4月25號,False
2,A0003,李O真,1977-11-04,女,103年4月,False
3,A0004,葉O毓,1982-10-30,男,0103年6月25日,False
4,A0005,郭O珊,1988-03-27,女,20171215,False


## 用正規表達式來處理混亂的日期格式

In [133]:
import datetime

pattern = '[0-9]{2,3}/[0-9]+/[0-9]+' # 篩選出  103/06/02
pattern1 = '[0-9]{2,3}\.[0-9]+\.[0-9]+'

df['pattern'] = df.日期.str.contains(pattern)

dates = []
for index, row in df[df['pattern']==True].iterrows():
    year = int(row['日期'].split('/')[0])+1911
    m = int(row['日期'].split('/')[1])
    d = int(row['日期'].split('/')[2])
    # print(row['證書日期'], int(row['證書日期'].split('/')[0])+1911)
    date = datetime.datetime.strptime(str(year)+'/'+str(m)+'/'+str(d), '%Y/%m/%d').date()
    dates.append(date)

df.loc[df['pattern']==True, '日期'] = dates

df.head(10)

Unnamed: 0,編號,姓名,生日,性別,日期,pattern
0,A0001,吳O如,1985-06-22,男,103/04,False
1,A0002,黃O倩,1982-03-09,女,103年4月25號,False
2,A0003,李O真,1977-11-04,女,103年4月,False
3,A0004,葉O毓,1982-10-30,男,0103年6月25日,False
4,A0005,郭O珊,1988-03-27,女,20171215,False
5,A0006,黃O鳳,1987-06-06,女,100年4月,False
6,A0007,陳O娟,1981-01-25,女,88.11,
7,A0008,林O明,1983-07-01,女,103/05,False
8,A0009,陳O福,1986-10-30,男,20171215,False
9,A0010,溫O貞,1977-02-07,女,93. 06.,False
