# 摘要

本專案目標在於，將過往會使用到的圖形資料，移除掉所有數值以後，僅保留各個欄位的變數名稱，基本資料(學校代碼、學校名稱 等)。

合併成一個 excel，並以分頁區隔不同的圖形所用之資料。

進行此行為的原因在於，當能夠將所有資料放在一起，就可以單從一個檔案作資料指定，進而可省去一些後續讀取資料所需的時間，降低時間機會成本。

# 採用 os 遍歷所有檔案，並合併。
遍歷資料夾 : 111 年大專校院公開平台數據計算_完成檔

In [1]:
import os
import re

In [2]:
data_nas_folder_path = os.path.join(os.path.dirname(os.getcwd()), "大專校院公開平台數據計算_參考版")

data_nas_path_generator = os.walk(data_nas_folder_path)

data_nas_path_list = []
for dirpath, dirname, files in data_nas_path_generator :
    for file in files : 
        data_path = os.path.join(dirpath, file)
        data_nas_path_list.append(data_path)
print(data_nas_path_list[0])


c:\Users\user\Desktop\工作資料夾\資料清理_自動化\大專校院公開平台數據計算_參考版\圖2-1-1生職比.xlsx


In [3]:
import pandas
import numpy
import traceback

In [4]:
# 建立一個參考用的 DataFrame ，之後會使用到這個，第一次看可以先略過。
base_data_path = os.path.join(os.path.join(os.path.dirname(os.getcwd()), "大專校院公開平台數據計算_參考版"), "圖2-1-1生職比.xlsx")
base_data = pandas.read_excel(base_data_path, sheet_name= "最終結果")

# 創建 儲存錯誤資訊的 list。
error_list = []

# 創建一個新的 Excel Writer 對象
writer_path = os.path.join(os.path.join(os.path.dirname(os.getcwd()), "reference"), "Step1_data.xlsx")
with pandas.ExcelWriter(writer_path, engine="openpyxl") as writer:
    # 從遍歷的 data_nas_list 中，採用 for-loop 合併。
    for data_path in data_nas_path_list : 
        try :
            data = pandas.read_excel(data_path, sheet_name = "最終結果") 

            # 將欄位名稱統一，並使學校代碼轉換為字串。
            if "統計處學校代碼" in data.columns : 
                data = data.rename(columns= {"統計處學校代碼" : "學校代碼"})
            
            if "學校代碼" not in data.columns : 
                # 因為之後都是用學校代碼做數值的填入，是故，如果現在的檔案，不存在學校代碼，就無法填入資料。
                # 創建一個 學校代碼 欄位，並以 data_base 之數值填入。
                data.insert(0, "學校代碼", numpy.nan)

                # 從 目前 data 中，尋找與 base_data 具有一樣學校名稱的欄位，將 目前 data 中之學校代碼的位置，填上正確的學校代碼。
                for sch_name in list(dict.fromkeys(data["學校名稱"])) :
                    try : 
                        data.loc[data["學校名稱"] == sch_name, "學校代碼"] = base_data[base_data["學校名稱"] == sch_name]["統計處學校代碼"].values[0]

                    except Exception as e : 
                        # print("區塊一")
                        # print(str(e))
                        pass
                
                # 檢查 目前的 data 是否有學校的學校代碼為遺漏值
                if data["學校代碼"].isnull().sum() != 0 : 

                    file_name = os.path.splitext(os.path.basename(data_path))[0]
                    for var in data[data["學校代碼"].isna()]["學校名稱"].values : 
                        if var == "中信金融管理學院" : 
                            data.loc[data["學校名稱"] == var, "學校代碼"] = "1125" # 中信金融管理學院，在 base_data 中沒有辦法找到對應的學校代碼，此處直接寫入。
                        else : 
                            error_element = {"錯誤類型" : "遺漏值", "分頁名稱" : file_name, "學校名稱" : var}
                            error_list.append(error_element)
                    
            # 將 學校代碼的型別轉為字串。
            data["學校代碼"] = data["學校代碼"].astype(str)

            # 尋找 data 中，學校類別的欄位。這個欄位的下一個欄位，就是變數欄位。
            sch_classfication_index = data.columns.get_loc("學校類別")

            # 將每一個變數欄位以遺漏值取代，方便之後填入。
            data[data.columns[sch_classfication_index + 1:]] = "NA"

            # 將每一個數值欄位 (如 速動比_101_學年度)，欄位名稱更改為 101，依此類推。採用正則表達式做數值選取。
            rename_list = []
            columns_list = data.iloc[:, sch_classfication_index + 1 : ].columns # 將數值欄位之欄位名稱都蒐集在一個 list。
            
            # 採用正則表達式，抓取 每個欄位的學年度部分。(如 速動比_101_學年度) 其中的 101。並存入 rename_list 之中。
            for column in columns_list : 
                sch_year_text = re.search(r'\d{3}', str(column)).group(0) # 有一些欄位名稱，是 int 格式，而不是字串。
                rename_list.append(sch_year_text)

            
            # 將 columns_list、rename_list，組合成 dict。
            rename_dict = dict(zip(columns_list, rename_list))

            # 將欄位名稱全部改名。
            data = data.rename(columns= rename_dict)
       
            # 將每一個 Data 依序寫入各個分頁，分頁名子 data_path 的檔案名稱命名。
            file_name = os.path.splitext(os.path.basename(data_path))[0]
            data.to_excel(writer, sheet_name = file_name, index=False)


        except Exception as e: 
            print("格式不同之檔案")
            print(data_path)
            print(traceback.print_exc())





In [5]:
error_data = pandas.DataFrame(error_list)
print(error_data)

Empty DataFrame
Columns: []
Index: []
