In [1]:
import pandas as pd
import os
%matplotlib inline

In [2]:
file = 'allbd＿by12month.csv'
path = '../02dataset/{}'.format(file)
df = pd.read_csv(path)

In [3]:
print('Old names: ',df.columns)
print('Reassign Column names')
df.columns = ['Time', 'Area', 'Building', 'Loop', 'Type', 'Usage']
print('New names: ',df.columns)
df.head()

Old names:  Index(['date', 'area', 'bd_name', 'loop', 'type', 'Usage'], dtype='object')
Reassign Column names
New names:  Index(['Time', 'Area', 'Building', 'Loop', 'Type', 'Usage'], dtype='object')


Unnamed: 0,Time,Area,Building,Loop,Type,Usage
0,2017/08,北區,體育館,主迴路,行政,39249.63
1,2017/08,北區,體育館,司令台,行政,1757.34
2,2017/08,北區,體育館,籃排球場,行政,949.59
3,2017/08,北區,環保大樓,主迴路,教學,73856.03
4,2017/08,南區,機車Ｈ棚,主迴路,行政,0.0


In [4]:
def clear_white_space(df):
    print("Before: ", df.Building.unique())
    for y in df.select_dtypes(include = 'object').columns:
        df[y] = df[y].str.strip()
    print('After: ', df.Building.unique())
clear_white_space(df)

Before:  ['體育館                 ' '環保大樓                ' '機車Ｈ棚                '
 '機車Ｄ棚                ' '機車Ａ棚                ' '學生十舍                '
 '學生十三舍               ' '學生十二舍               ' '學生十一舍_研一舍           '
 '學生十一舍               ' '學生八舍                ' '學生九舍                '
 '學生七舍_八舍             ' '學生七舍                ' '綜合球館                '
 '綜合一館                ' '管理二館                ' '管理一館                '
 '圖資中心                ' '電資大樓                ' '資訊館(南區)             '
 '資訊館(北區)             ' '游泳館                 ' '第二餐廳                '
 '第一招待所               ' '基礎大樓                ' '科學二館                '
 '科學一館                ' '研究生二舍               ' '研究生一舍               '
 '活動中心                ' '南區總電站               ' '服務大樓                '
 '防災中心                ' '材料實驗                ' '行政大樓                '
 '竹軒宿舍                ' '污水場                 ' '光電大樓                '
 '交映樓                 ' '中正堂                 ' '工程四館                '
 '工程六館     

In [5]:
# 用自訂函式去理解DF中每個欄位有哪幾種類別的值
print_limit = 100
def understand(df):
    for col_name in df.columns:
        print ('>>> "{}" has {} unique values:'.format(col_name, len(df[col_name].unique())))
        if(len(df[col_name].unique())< print_limit):
            print(df[col_name].unique())
        else:
            print('The value is more than {} so wont be list here :P'.format(print_limit))
        print('\n')


In [6]:
understand(df)

>>> "Time" has 12 unique values:
['2017/08' '2017/07' '2017/06' '2017/05' '2017/04' '2017/03' '2017/02'
 '2017/01' '2016/12' '2016/11' '2016/10' '2016/09']


>>> "Area" has 2 unique values:
['北區' '南區']


>>> "Building" has 53 unique values:
['體育館' '環保大樓' '機車Ｈ棚' '機車Ｄ棚' '機車Ａ棚' '學生十舍' '學生十三舍' '學生十二舍' '學生十一舍_研一舍'
 '學生十一舍' '學生八舍' '學生九舍' '學生七舍_八舍' '學生七舍' '綜合球館' '綜合一館' '管理二館' '管理一館' '圖資中心'
 '電資大樓' '資訊館(南區)' '資訊館(北區)' '游泳館' '第二餐廳' '第一招待所' '基礎大樓' '科學二館' '科學一館'
 '研究生二舍' '研究生一舍' '活動中心' '南區總電站' '服務大樓' '防災中心' '材料實驗' '行政大樓' '竹軒宿舍' '污水場'
 '光電大樓' '交映樓' '中正堂' '工程四館' '工程六館' '工程五館' '工程三館' '工程二館' '工程一館中繼' '工程一館'
 '女二舍' '土木結構' '人社二館中繼' '人社二館' '人社一館']


>>> "Loop" has 51 unique values:
['主迴路' '司令台' '籃排球場' '學生交誼廳' '閱覽交誼廳' '社團' '1F便利超商' '環校路燈' '空大MP動力' '餐亭'
 '空大ML燈力' '管科MP動力' '管科ML燈力' '管科插座' '棒球場照明' '咖啡廳' '空調' '網球場動力' '網球場燈力'
 '館旁餐亭' '1F動力1' '1F便利超商動力' '2F快餐部P動力' '1F動力2' '3F教職員餐廳P動力' '2F素食部P動力'
 '1F燈力' '3F員工餐廳P動力' '2F素食部L燈力' '2F水果部L燈力' '2F快餐部L燈力' '3F教職員餐廳L燈力'
 '3F員工餐廳L燈力' '2F水果部P動力' '第一餐聽' '華通空調' '眼鏡部' '思源' '

### 原始資料說明 - 2
- index: ['﻿時  間', '區 域', '館 舍 別', '迴 路 別', '用電別', '用電量(單位:度)']

### 人工資料前處理：改變欄位名稱
#### 改變的原因
- 原始的資料有空白在字串裡，會造成一些麻煩
- 英文的名稱，可以在Pandas寫Code時較為方便(才能用 df.Usage的指令)

#### 改了什麼
- 我用Number(Excel)的尋找取代功能，把資料轉成英文，以下括弧表示原始資料的命名
    - 區域：southArea(南區), northArea(北區)
    - 迴 路 別: mainLoop（主迴路）, familyMart（1F便利超商）, club（社團）, socialHall（閱覽交誼廳）, studentHall（學生交誼廳）, streetLight(環校路燈),
    - 館舍： dorm_13（學生十三舍）,(7,8,9,10,11,12 以此類推), dorm_graduate_2（研二）, dorm_87（學生七舍＿八舍）, dorm_13_graduate_1(11與研一), dorm_chu（竹軒）
    - 用電別：rent（外租）, dorm（宿舍）, admin(行政)

In [7]:
dic_replace = {
    'Area' : {'北區':'N','南區':'S'},
    'Building' : {
        '基礎大樓':"SB3",
        '科學二館':"SB2",
        '科學一館':"SB1",
        '學生十三舍': "D13", 
        '學生十二舍': 'D12',
        '學生十一舍': 'D11',
        '學生十舍': 'D10',
        '學生九舍': 'D9',
        '學生八舍': 'D8',
        '學生七舍': 'D7',
        '學生七舍_八舍':'D87',
        '竹軒宿舍': 'Df1',
        '女二舍': 'Df2',
        '研究生一舍': 'Dgd1',
        '研究生二舍': 'Dgd2',
        '學生十一舍_研一舍':'D11_grad1',
        '管理一館':'MB1',
        '管理二館':'MB2',
        '工程一館': 'EB1',
        '工程二館': 'EB2',
        '工程三館': 'EB3',
        '工程四館': 'EB4',
        '工程五館': 'EB5',
        '工程六館': 'EB6',
        '人社一館': 'HS1',
        '人社二館': 'HS2',
        '交映樓': 'CPT',
        '土木結構': 'CElab',
        '中正堂':'CKS',
        '光電大樓':'TKB',
        '第二餐廳': 'Canteen2',
        '服務大樓':'Service',
        '行政大樓':'Administration',
        '環保大樓':'Environmental',
        '材料實驗':'Material',
        '綜合一館':'Assembly1',
        '綜合球館':'Sport',
        '游泳館':'Swim',
        '體育館':'Gym',
        '機車Ｈ棚':'ShedH',
        '機車Ａ棚':'ShedA',
        '機車Ｄ棚':'ShedD',
        '工程一館中繼':'PowerSatatiopn_EB1',
        '人社二館中繼':'PowerSatatiopn_HS2',
        '南區總電站':'PowerSatatiopn_main_south',
        '防災中心':'Safty',
        '污水場':'Wastewater',
        '電資大樓': 'ElecInfo',
        '資訊館(南區)':'Info_south',
        '資訊館(北區)':'Info_north',
        '活動中心': 'Activity',
        '圖資中心': 'Library',
        '第一招待所': 'GuestHouse'
                 },
    'Type' : {'教學': 'edu', '宿舍': 'dorm', '行政':'admin', '外租':'rent','電站':'power'},
    'Loop' : {'主迴路': 'main'}
              }
# ,'Building': {'學生十舍':'d10', '學生十三舍':'d13', }
df = df.replace(dic_replace)

In [8]:
df.Building.unique()

array(['Gym', 'Environmental', 'ShedH', 'ShedD', 'ShedA', 'D10', 'D13',
       'D12', 'D11_grad1', 'D11', 'D8', 'D9', 'D87', 'D7', 'Sport',
       'Assembly1', 'MB2', 'MB1', 'Library', 'ElecInfo', 'Info_south',
       'Info_north', 'Swim', 'Canteen2', 'GuestHouse', 'SB3', 'SB2', 'SB1',
       'Dgd2', 'Dgd1', 'Activity', 'PowerSatatiopn_main_south', 'Service',
       'Safty', 'Material', 'Administration', 'Df1', 'Wastewater', 'TKB',
       'CPT', 'CKS', 'EB4', 'EB6', 'EB5', 'EB3', 'EB2',
       'PowerSatatiopn_EB1', 'EB1', 'Df2', 'CElab', 'PowerSatatiopn_HS2',
       'HS2', 'HS1'], dtype=object)

In [9]:
understand(df)

>>> "Time" has 12 unique values:
['2017/08' '2017/07' '2017/06' '2017/05' '2017/04' '2017/03' '2017/02'
 '2017/01' '2016/12' '2016/11' '2016/10' '2016/09']


>>> "Area" has 2 unique values:
['N' 'S']


>>> "Building" has 53 unique values:
['Gym' 'Environmental' 'ShedH' 'ShedD' 'ShedA' 'D10' 'D13' 'D12'
 'D11_grad1' 'D11' 'D8' 'D9' 'D87' 'D7' 'Sport' 'Assembly1' 'MB2' 'MB1'
 'Library' 'ElecInfo' 'Info_south' 'Info_north' 'Swim' 'Canteen2'
 'GuestHouse' 'SB3' 'SB2' 'SB1' 'Dgd2' 'Dgd1' 'Activity'
 'PowerSatatiopn_main_south' 'Service' 'Safty' 'Material' 'Administration'
 'Df1' 'Wastewater' 'TKB' 'CPT' 'CKS' 'EB4' 'EB6' 'EB5' 'EB3' 'EB2'
 'PowerSatatiopn_EB1' 'EB1' 'Df2' 'CElab' 'PowerSatatiopn_HS2' 'HS2' 'HS1']


>>> "Loop" has 51 unique values:
['main' '司令台' '籃排球場' '學生交誼廳' '閱覽交誼廳' '社團' '1F便利超商' '環校路燈' '空大MP動力' '餐亭'
 '空大ML燈力' '管科MP動力' '管科ML燈力' '管科插座' '棒球場照明' '咖啡廳' '空調' '網球場動力' '網球場燈力'
 '館旁餐亭' '1F動力1' '1F便利超商動力' '2F快餐部P動力' '1F動力2' '3F教職員餐廳P動力' '2F素食部P動力'
 '1F燈力' '3F員工餐廳P動力' '2F素食部L燈力' '2F水

In [15]:
print(os.getcwd())
os.chdir(path[:path.rfind('/')])

/Users/ah-bau/Desktop/交大課程/106A的六科/06基礎科學方法與實作/Github NCTU Electricity/02dataset


In [17]:
df.to_csv('[new]'+file, encoding='utf-8')