In [5]:
import pandas as pd
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt
import os


In [14]:
# 主資料夾路徑
main_folder_path = "D:/YU_LAB_Project_group2/Project-of-group-2/new_code/酒吧評論"
output_folder_path = os.path.join(main_folder_path, "wordcloud")

# 創建文字雲圖片儲存資料夾（如果不存在）
if not os.path.exists(output_folder_path):
    os.makedirs(output_folder_path)

# 確認字體路徑是否正確
font_path = "C:/Windows/Fonts/msjh.ttc"  # Windows系統的字體路徑
if not os.path.exists(font_path):
    raise FileNotFoundError(f"字體文件未找到: {font_path}")

# 用於儲存所有酒吧文字雲的資料
wordcloud_data = []

# 遍歷主資料夾內的所有子資料夾
for root, dirs, files in os.walk(main_folder_path):
    for file in files:
        # 確認檔案是否為 CSV
        if file.endswith(".csv"):
            file_path = os.path.join(root, file)
            print(f"處理檔案: {file_path}")

            # 嘗試檢測編碼並讀取文件
            try:
                with open(file_path, 'rb') as f:
                    result = chardet.detect(f.read())
                encoding = result['encoding']
                print(f"檢測到的編碼: {encoding}")

                df = pd.read_csv(file_path, encoding=encoding)
            except Exception as e:
                print(f"無法讀取檔案 {file_path}，錯誤: {e}")
                continue

            # 檢查是否包含 "評論" 欄位
            if '評論' not in df.columns:
                print(f"檔案 {file_path} 不包含 '評論' 欄位，跳過")
                continue

            # 合併評論
            all_comments = " ".join(df['評論'].dropna().astype(str))

            # 創建文字雲
            wordcloud = WordCloud(
                width=800,
                height=400,
                background_color='white',
                font_path=font_path,
                max_words=100,
                contour_color='steelblue'
            ).generate(all_comments)

            # 取得酒吧名字作為圖片名稱（移除 .csv 副檔名）
            bar_name = os.path.splitext(file)[0]

            # 儲存文字雲圖片到 wordcloud 資料夾
            output_image_path = os.path.join(output_folder_path, f"{bar_name}.png")
            wordcloud.to_file(output_image_path)
            print(f"已儲存文字雲圖片至: {output_image_path}")

            # 儲存酒吧的文字雲數據到列表
            wordcloud_data.append({
                "酒吧名稱": bar_name,
                "文字雲關鍵字": wordcloud.words_
            })

# 將所有酒吧的文字雲關鍵字數據儲存到一個 CSV 檔案
output_csv_path = os.path.join(main_folder_path, "wordcloud.csv")
wordcloud_df = pd.DataFrame(wordcloud_data)
wordcloud_df["文字雲關鍵字"] = wordcloud_df["文字雲關鍵字"].apply(lambda x: str(x))  # 將字典轉為字串
wordcloud_df.to_csv(output_csv_path, index=False, encoding='utf-8-sig')
print(f"所有酒吧的文字雲關鍵字數據已儲存至: {output_csv_path}")

# 檢測沒有文字雲圖片的店家
csv_files = [os.path.splitext(file)[0] for root, dirs, files in os.walk(main_folder_path) for file in files if file.endswith(".csv")]
image_files = [os.path.splitext(file)[0] for file in os.listdir(output_folder_path) if file.endswith(".png")]

missing_images = [bar for bar in csv_files if bar not in image_files]

if missing_images:
    print("以下店家沒有生成文字雲圖片:")
    for bar in missing_images:
        print(bar)
else:
    print("所有店家都已生成文字雲圖片。")


處理檔案: D:/YU_LAB_Project_group2/Project-of-group-2/new_code/酒吧評論\wordcloud.csv
檢測到的編碼: UTF-8-SIG
檔案 D:/YU_LAB_Project_group2/Project-of-group-2/new_code/酒吧評論\wordcloud.csv 不包含 '評論' 欄位，跳過
處理檔案: D:/YU_LAB_Project_group2/Project-of-group-2/new_code/酒吧評論\中山區 酒吧\23 Music Room.csv
檢測到的編碼: UTF-8-SIG
已儲存文字雲圖片至: D:/YU_LAB_Project_group2/Project-of-group-2/new_code/酒吧評論\wordcloud\23 Music Room.png
處理檔案: D:/YU_LAB_Project_group2/Project-of-group-2/new_code/酒吧評論\中山區 酒吧\50_45 WINEHAUS 伴瓶酒葡萄酒吧.csv
檢測到的編碼: UTF-8-SIG
已儲存文字雲圖片至: D:/YU_LAB_Project_group2/Project-of-group-2/new_code/酒吧評論\wordcloud\50_45 WINEHAUS 伴瓶酒葡萄酒吧.png
處理檔案: D:/YU_LAB_Project_group2/Project-of-group-2/new_code/酒吧評論\中山區 酒吧\7th Japanese Bar.csv
檢測到的編碼: UTF-8-SIG
已儲存文字雲圖片至: D:/YU_LAB_Project_group2/Project-of-group-2/new_code/酒吧評論\wordcloud\7th Japanese Bar.png
處理檔案: D:/YU_LAB_Project_group2/Project-of-group-2/new_code/酒吧評論\中山區 酒吧\8528 Music Bar 不限時調酒暢飲.csv
檢測到的編碼: UTF-8-SIG
已儲存文字雲圖片至: D:/YU_LAB_Project_group2/Project-of-group-2/new_cod

In [15]:
import os

# 主資料夾路徑
main_folder_path = "D:/YU_LAB_Project_group2/Project-of-group-2/new_code/酒吧評論"
output_folder_path = os.path.join(main_folder_path, "wordcloud")  # 文字雲圖片存放的資料夾

# 獲取所有 CSV 檔案的店家名稱（去掉 .csv 副檔名，忽略特定文件）
csv_files = [
    os.path.splitext(file)[0] for root, dirs, files in os.walk(main_folder_path)
    for file in files if file.endswith(".csv") and file != "all_store.csv"
]

# 獲取所有已生成文字雲圖片的店家名稱（去掉 .png 副檔名）
if os.path.exists(output_folder_path):
    image_files = [
        os.path.splitext(file)[0] for file in os.listdir(output_folder_path)
        if file.endswith(".png")
    ]
else:
    image_files = []

# 計算總店家數
total_stores = len(csv_files)

# 找出未生成文字雲圖片的店家
missing_images = [bar for bar in csv_files if bar not in image_files]

# 輸出結果
print(f"總共有 {total_stores} 家店家。")
if missing_images:
    print(f"其中有 {len(missing_images)} 家店家沒有生成文字雲圖片:")
    for bar in missing_images:
        print(bar)
else:
    print("所有店家都已生成文字雲圖片。")


總共有 830 家店家。
其中有 13 家店家沒有生成文字雲圖片:
wordcloud
all_stores
all_stores
all_stores
all_stores
all_stores
all_stores
all_stores
all_stores
all_stores
all_stores
all_stores
all_stores
