### 餐飲服務

In [1]:
import pandas as pd

# 1. 讀取 CSV (請確認編碼，中文常是 utf-8-sig 或 gb18030)
file_path = 'Yixing_data/2024_江苏省_无锡市_宜兴市_餐饮服务.csv'  # 你的檔案名稱
try:
    df = pd.read_csv(file_path, encoding='utf-8-sig')
except UnicodeDecodeError:
    df = pd.read_csv(file_path, encoding='gb18030')


In [2]:
df['行业小类'].unique()

array(['中餐厅|体育休闲服务', '综合酒楼|体育休闲服务', '餐饮相关|体育休闲服务', '中餐厅', '江苏菜', '餐饮相关',
       '茶艺馆', '茶艺馆|购物服务', '糕饼店', '火锅店', '清真菜馆', '咖啡厅', '快餐厅', '冷饮店',
       '特色/地方风味餐厅', '综合酒楼', '东北菜', '海鲜酒楼', '肯德基', '中餐厅|生活服务', '餐饮相关|购物服务',
       '冷饮店|生活服务', '湖南菜(湘菜)', '浙江菜', '四川菜(川菜)', '餐饮相关|生活服务', '韩国料理',
       '牛扒店(扒房)', '外国餐厅', '西餐厅(综合风味)', '中餐厅|住宿服务', '江苏菜|住宿服务',
       '餐饮相关|住宿服务', '综合酒楼|住宿服务', '甜品店', '日本料理', '广东菜(粤菜)', '星巴克咖啡',
       '安徽菜(徽菜)', '休闲餐饮场所', '综合酒楼|商务住宅', '泰国/越南菜品餐厅', '冷饮店|购物服务',
       '咖啡厅|餐饮服务', '广东菜(粤菜)|住宿服务', '综合酒楼|餐饮服务', '云贵菜', '法式菜品餐厅',
       '中餐厅|公司企业', '冷饮店|餐饮服务', '西北菜', '海鲜酒楼|餐饮服务', '快餐厅|餐饮服务', '麦当劳',
       '中式素菜馆', '糕饼店|购物服务', '特色/地方风味餐厅|餐饮服务', '中餐厅|餐饮服务', '台湾菜', '必胜客',
       '茶艺馆|生活服务', '甜品店|购物服务', '糕饼店|餐饮服务', '茶艺馆|公司企业', '茶餐厅', '北京菜',
       '山东菜(鲁菜)', '意式菜品餐厅', '永和豆浆', '四川菜(川菜)|餐饮服务', '中餐厅|风景名胜',
       '火锅店|餐饮服务', '福建菜', '上海菜', '清真菜馆|餐饮服务', '海鲜酒楼|住宿服务', '墨西哥菜'],
      dtype=object)

In [3]:
# 這是根據你提供的 Array 整理出的完整對應字典
# 鍵 (Key) 是你的原始資料切割後的名稱
# 值 (Value) 是你目標清單中的 Tag

mapping_rules = {
    # ================= fast_food (快餐類) =================
    '快餐厅': 'fast_food',
    '肯德基': 'fast_food',
    '麦当劳': 'fast_food',
    '必胜客': 'fast_food',   # 雖然常有座位，但在分類上常歸為連鎖快餐
    '永和豆浆': 'fast_food',
    '糕饼店': 'fast_food',   # 你的清單沒有 bakery，暫歸類為 fast_food 或 marketplace

    # ================= Cafe / Tea (咖啡與茶) =================
    '咖啡厅': 'cafe',
    '星巴克咖啡': 'cafe',
    '茶艺馆': 'cafe',       # 清單無 teahouse，cafe 是最接近的
    '休闲餐饮场所': 'cafe', # 通常指 Lounge 或 輕食，歸類 cafe

    # ================= Ice Cream / Dessert (甜點飲料) =================
    '冷饮店': 'ice_cream',
    '甜品店': 'ice_cream',

    # ================= Restaurant (所有正餐餐廳) =================
    # 通用類
    '中餐厅': 'restaurant',
    '综合酒楼': 'restaurant',
    '海鲜酒楼': 'restaurant',
    '餐饮相关': 'restaurant', # 模糊項目，預設為餐廳
    '外国餐厅': 'restaurant',
    '西餐厅(综合风味)': 'restaurant',
    '特色/地方风味餐厅': 'restaurant',
    '中式素菜馆': 'restaurant',
    '茶餐厅': 'restaurant',   # 港式茶餐廳通常提供正餐
    
    # 火鍋與肉類
    '火锅店': 'restaurant',
    '牛扒店(扒房)': 'restaurant',
    
    # 中式菜系
    '江苏菜': 'restaurant',
    '湖南菜(湘菜)': 'restaurant',
    '浙江菜': 'restaurant',
    '四川菜(川菜)': 'restaurant',
    '东北菜': 'restaurant',
    '广东菜(粤菜)': 'restaurant',
    '安徽菜(徽菜)': 'restaurant',
    '云贵菜': 'restaurant',
    '西北菜': 'restaurant',
    '台湾菜': 'restaurant',
    '北京菜': 'restaurant',
    '山东菜(鲁菜)': 'restaurant',
    '福建菜': 'restaurant',
    '上海菜': 'restaurant',
    '清真菜馆': 'restaurant',
    
    # 異國料理
    '韩国料理': 'restaurant',
    '日本料理': 'restaurant',
    '泰国/越南菜品餐厅': 'restaurant',
    '法式菜品餐厅': 'restaurant',
    '意式菜品餐厅': 'restaurant',
    '墨西哥菜': 'restaurant',
}

def get_osm_tag(micro_class_str):
    """
    輸入: '中餐厅|体育休闲服务'
    輸出: 'restaurant'
    """
    # 這裡如果不轉字串，遇到 NaN (空值) 會報錯，所以先強制轉型或判斷
    if pd.isna(micro_class_str) or micro_class_str == '':
        return 'commercial' # 若資料缺失，回傳通用商業建築
    
    # 確保輸入是字串
    micro_class_str = str(micro_class_str)
        
    # 1. 處理 '|' 符號，只取第一部分
    clean_name = micro_class_str.split('|')[0]
    
    # 2. 直接查表
    if clean_name in mapping_rules:
        return mapping_rules[clean_name]
        
    return 'restaurant' 

df['osm_tag'] = df['行业小类'].apply(get_osm_tag)

# (可選) 檢查輸出結果
print("預覽前 30 筆資料:")
print(df[['name', '行业小类', 'osm_tag']].head(30))

預覽前 30 筆資料:
                  name         行业小类     osm_tag
0                 志方人家   中餐厅|体育休闲服务  restaurant
1               欣竹山庄饭店   中餐厅|体育休闲服务  restaurant
2               阿兴农家小院   中餐厅|体育休闲服务  restaurant
3                 上善酒家  综合酒楼|体育休闲服务  restaurant
4          小龙潭农家乐(龙山店)   中餐厅|体育休闲服务  restaurant
5                心平农家乐   中餐厅|体育休闲服务  restaurant
6               中海生态农庄   中餐厅|体育休闲服务  restaurant
7            至真园私家花园饭店   中餐厅|体育休闲服务  restaurant
8        焱牛Flaming cow  餐饮相关|体育休闲服务  restaurant
9                 竹叶山庄   中餐厅|体育休闲服务  restaurant
10              青竹园农家乐   中餐厅|体育休闲服务  restaurant
11       程小妞私房菜(怡丰花园店)          中餐厅  restaurant
12          广聚楼(怡丰花园店)          江苏菜  restaurant
13              雅点优品美食          中餐厅  restaurant
14                柿子林咖         餐饮相关  restaurant
15              东山三村私房          中餐厅  restaurant
16                春觅茶事          茶艺馆        cafe
17                沐心茶舍     茶艺馆|购物服务        cafe
18  不晚BUWAN(Coffe&Tea)         餐饮相关  restaurant
19             铜师傅铜木主义      

In [4]:
import os

output_file = 'mapped_data.csv'

# 檢查檔案是否存在，以決定是否要寫入 Header (表頭)
file_exists = os.path.exists(output_file)

df.to_csv(
    output_file, 
    mode='a',                # 'a' 代表 Append (追加)，不會覆蓋舊檔
    index=False, 
    header=not file_exists,  # 只有當檔案「不存在」時，才寫入標題
    encoding='utf-8-sig'
)

print(f"成功將 {len(df)} 筆資料寫入 {output_file}")

成功將 10543 筆資料寫入 mapped_data.csv


### 公司企業

In [5]:
# 1. 讀取 CSV (請確認編碼，中文常是 utf-8-sig 或 gb18030)
file_path = 'Yixing_data/2024_江苏省_无锡市_宜兴市_公司企业.csv'  # 你的檔案名稱
try:
    df = pd.read_csv(file_path, encoding='utf-8-sig')
except UnicodeDecodeError:
    df = pd.read_csv(file_path, encoding='gb18030')

In [6]:
df['行业小类'].unique()

array(['公司|金融保险服务', '公司|体育休闲服务', '水果基地|体育休闲服务', '工厂|公司企业', '公司|汽车销售',
       '其它农林牧渔基地|体育休闲服务', '农场|体育休闲服务', '公司企业|汽车销售', '花卉苗圃基地|体育休闲服务',
       '公司|生活服务', '广告装饰|生活服务', '公司|餐饮服务', '网络科技|生活服务', '公司企业|生活服务',
       '广告装饰|购物服务', '公司|科教文化服务', '其它农林牧渔基地|餐饮服务', '公司|政府机构及社会团体', '公司企业',
       '网络科技', '公司', '机械电子', '工厂', '其它农林牧渔基地', '公司|购物服务', '广告装饰', '冶金化工',
       '公司|公司企业', '商业贸易', '建筑公司', '医药公司', '机械电子|购物服务', '公司|汽车服务',
       '机械电子|公司企业', '其它农林牧渔基地|购物服务', '工厂|购物服务', '冶金化工|公司企业', '矿产公司',
       '公司企业|汽车服务', '网络科技|购物服务', '公司|商务住宅', '建筑公司|科教文化服务',
       '其它农林牧渔基地|公司企业', '冶金化工|购物服务', '电信公司', '公司|住宿服务', '商业贸易|购物服务',
       '网络科技|公司企业', '农场', '工厂|汽车维修', '牧场', '公司|风景名胜', '家禽养殖基地',
       '其它农林牧渔基地|商务住宅', '水果基地', '花卉苗圃基地', '知名企业'], dtype=object)

In [7]:
# ================= 1. 針對「公司/工廠/農業」的 Mapping Rules =================
mapping_rules = {
    # --- Corporate / Office (一般公司企業) ---
    # 這些通常是辦公大樓或辦公室
    '公司': 'office',
    '公司企业': 'office',
    '网络科技': 'office',
    '广告装饰': 'office',
    '商业贸易': 'office',
    '建筑公司': 'office',
    '医药公司': 'office',
    '电信公司': 'office',
    '知名企业': 'office',
    '矿产公司': 'office', # 礦業公司總部通常是 office

    # --- Industry / Manufacturing (工業與製造) ---
    # 這些對應到工業建築
    '工厂': 'industrial',
    '机械电子': 'industrial',
    '冶金化工': 'industrial',
    '维修': 'industrial',  # 或是 car repair，但清單無，故歸類工業或商業

    # --- Agriculture (農業與養殖) ---
    # 根據你的 Building List 選擇最接近的
    '农场': 'barn',           # 農場建築常包含穀倉
    '牧场': 'barn',           # 養殖場
    '家禽养殖基地': 'barn',
    '其它农林牧渔基地': 'greenhouse', # 基地通常包含大棚
    '水果基地': 'greenhouse',
    '花卉苗圃基地': 'greenhouse',

    # --- Auto / Retail (汽車與商業) ---
    '汽车销售': 'retail',     # 屬於零售展示
    '汽车服务': 'commercial', # 泛用商業
}

# ================= 2. 定義轉換函式 =================
def get_osm_tag(micro_class_str):
    """
    輸入: '工厂|公司企业'
    輸出: 'industrial'
    """
    if pd.isna(micro_class_str) or micro_class_str == '':
        return 'office' # 若資料缺失，這類資料集預設為 office 比較安全
    
    # 強制轉字串
    micro_class_str = str(micro_class_str)
        
    # 1. 處理 '|' 符號，只取第一部分
    # 例如 '工厂|公司企业' -> 取 '工厂'
    clean_name = micro_class_str.split('|')[0]
    
    # 2. 直接查表
    if clean_name in mapping_rules:
        return mapping_rules[clean_name]
    return 'office' 

# ================= 3. 讀取與處理 (假設 df 是你的新 DataFrame) =================
# 請將這裡的 df 替換為你實際讀取的變數
# 例如: df = pd.read_csv('your_new_file.csv')

# 應用函式
df['osm_tag'] = df['行业小类'].apply(get_osm_tag)

# (可選) 檢查輸出結果
print("預覽新資料處理結果:")
print(df[['name', '行业小类', 'osm_tag']].head(25))

# ================= 4. 寫入 CSV (Append 模式 - 不覆蓋) =================
output_file = 'mapped_data.csv'


預覽新資料處理結果:
                    name             行业小类     osm_tag
0        正和财税服务有限公司和桥分公司        公司|金融保险服务      office
1             宜兴市老胡酒业竹酒园        公司|体育休闲服务      office
2                  阳羡杨梅园      水果基地|体育休闲服务  greenhouse
3            宜兴市阳羡茶业有限公司          工厂|公司企业  industrial
4                   宜兴绍通          公司|汽车销售      office
5                 银环太湖农庄  其它农林牧渔基地|体育休闲服务  greenhouse
6       宜兴市鸿晓源家庭农场(暂停营业)        农场|体育休闲服务        barn
7            宜兴市新街花木有限公司        公司|体育休闲服务      office
8                   金田电轿        公司企业|汽车销售      office
9                 方氏草莓基地  其它农林牧渔基地|体育休闲服务  greenhouse
10                  宜兴锦润          公司|汽车销售      office
11  宜兴市建邦环境投资有限责任公司(徐丰路)        公司|金融保险服务      office
12             千江月农业高科基地  其它农林牧渔基地|体育休闲服务  greenhouse
13            宜兴市御茶农林生态园    花卉苗圃基地|体育休闲服务  greenhouse
14            风雷益半农生活体验园  其它农林牧渔基地|体育休闲服务  greenhouse
15       宜兴市联丰农村小额贷款有限公司        公司|金融保险服务      office
16          无锡市栖望筑造设计事务所          公司|生活服务      office
17               

In [8]:

# 檢查檔案是否存在
file_exists = os.path.exists(output_file)

df.to_csv(
    output_file, 
    mode='a',                # 追加模式
    index=False, 
    header=not file_exists,  # 若檔案存在則不寫標題
    encoding='utf-8-sig'
)

print(f"成功追加 {len(df)} 筆資料到 {output_file}")

成功追加 12180 筆資料到 mapped_data.csv


### 交通設施服務

In [9]:
# 1. 讀取 CSV (請確認編碼，中文常是 utf-8-sig 或 gb18030)
file_path = 'Yixing_data/2024_江苏省_无锡市_宜兴市_交通设施服务.csv'  # 你的檔案名稱
try:
    df = pd.read_csv(file_path, encoding='utf-8-sig')
except UnicodeDecodeError:
    df = pd.read_csv(file_path, encoding='gb18030')

In [10]:
df['行业小类'].unique()

array(['路边停车场', '公交车站相关', '公共停车场', '停车场出入口', '停车场入口', '停车场相关', '专用停车场',
       '进站', '长途汽车站', '停车场出口', '公共停车场|交通设施服务', '交通服务相关', '机场相关', '地铁站',
       '出站口', '进站口/检票口', '火车站', '自驾车', '网约车', '港口码头', '出站', '货运港口码头',
       '货运火车站', '路边停车场|交通设施服务'], dtype=object)

In [11]:
import pandas as pd
import os

# ================= 1. 針對「交通設施」的 Mapping Rules =================
mapping_rules = {
    # --- Parking (停車場) ---
    '路边停车场': 'parking',
    '公共停车场': 'parking',
    '专用停车场': 'parking',
    '停车场相关': 'parking',
    '自驾车': 'parking',      # 通常指自駕車停靠點
    '网约车': 'parking',      # 網約車上車點，歸類為停車性質

    # --- parking_entrance (停車場出入口) ---
    '停车场出入口': 'parking_entrance',
    '停车场入口': 'parking_entrance',
    '停车场出口': 'parking_entrance',

    # --- bus_station (巴士站) ---
    '公交车站相关': 'bus_station',
    '长途汽车站': 'bus_station',
    '交通服务相关': 'bus_station', # 泛指交通服務，暫歸此類

    # --- Public Transport / Infrastructure (軌道/機場/公共) ---
    # 你的清單沒有 train_station/airport，故使用 publicbuilding (公共建築)
    '地铁站': 'public',
    '火车站': 'public',
    '机场相关': 'public',
    '进站': 'public',        # 車站內部設施
    '出站': 'public',
    '进站口/检票口': 'public',
    '出站口': 'public',

    # --- Freight / Industrial (貨運/港口) ---
    # 貨運設施通常屬於工業區
    '货运港口码头': 'loading_dock',
    '货运火车站': 'industrial',
    '港口码头': 'loading_dock',
}

# ================= 2. 定義轉換函式 =================
def get_osm_tag(micro_class_str):
    """
    輸入: '公共停车场|交通设施服务'
    輸出: 'parking'
    """
    if pd.isna(micro_class_str) or micro_class_str == '':
        return 'public' # 若資料缺失，預設為公共設施
    
    # 強制轉字串
    micro_class_str = str(micro_class_str)
        
    # 1. 處理 '|' 符號，只取第一部分
    clean_name = micro_class_str.split('|')[0]
    
    # 2. 直接查表
    if clean_name in mapping_rules:
        return mapping_rules[clean_name]
    
    return 'parking'


# 應用函式
df['osm_tag'] = df['行业小类'].apply(get_osm_tag)

# (可選) 檢查輸出結果
print("預覽交通類資料處理結果:")
print(df[['name', '行业小类', 'osm_tag']].head(25))

預覽交通類資料處理結果:
              name    行业小类           osm_tag
0        前红路-道路停车位   路边停车场           parking
1        环保基地(公交站)  公交车站相关       bus_station
2            地面停车场   公共停车场           parking
3       地面停车场(出入口)  停车场出入口  parking_entrance
4          前红(公交站)  公交车站相关       bus_station
5         德胜圩(公交站)  公交车站相关       bus_station
6         杨家村(公交站)  公交车站相关       bus_station
7        社区医院(公交站)  公交车站相关       bus_station
8        溢润新城(公交站)  公交车站相关       bus_station
9    张渚大梦想城停车场(入口)   停车场入口  parking_entrance
10       张渚大梦想城停车场   公共停车场           parking
11  张渚大梦想城停车场(出入口)  停车场出入口  parking_entrance
12       张渚大梦想城停车场   公共停车场           parking
13           地面停车场   公共停车场           parking
14      地面停车场(出入口)  停车场出入口  parking_entrance
15     新街农贸市场(公交站)  公交车站相关       bus_station
16       农贸市场(公交站)  公交车站相关       bus_station
17      地面停车场(出入口)  停车场出入口  parking_entrance
18           地面停车场   公共停车场           parking
19      新街街道货运车停车场   公共停车场           parking
20       新街中学(公交站)  公交车站相关       bus_stati

In [12]:
output_file = 'mapped_data.csv'

# 檢查檔案是否存在
file_exists = os.path.exists(output_file)

df.to_csv(
    output_file, 
    mode='a',                # 追加模式
    index=False, 
    header=not file_exists,  # 若檔案存在則不寫標題
    encoding='utf-8-sig'
)

print(f"成功追加 {len(df)} 筆交通類資料到 {output_file}")

成功追加 4688 筆交通類資料到 mapped_data.csv


### 休閒服務

In [13]:
# 1. 讀取 CSV (請確認編碼，中文常是 utf-8-sig 或 gb18030)
file_path = 'Yixing_data/2024_江苏省_无锡市_宜兴市_体育休闲服务.csv'  # 你的檔案名稱
try:
    df = pd.read_csv(file_path, encoding='utf-8-sig')
except UnicodeDecodeError:
    df = pd.read_csv(file_path, encoding='gb18030')

In [14]:
df['行业小类'].unique()

array(['酒吧', 'KTV', '体育休闲服务场所', '棋牌室', '网吧', '溜冰场', '健身中心', '休闲场所', '游戏厅',
       '台球厅', '剧场', '电影院', '娱乐场所|体育休闲服务', '垂钓园', '娱乐场所', '运动场所', '疗养院',
       '采摘园', '综合体育馆', '游泳馆', '游乐场', '足球场', '度假村', '滑雪场', '篮球场馆', '羽毛球场',
       '跆拳道场馆', '乒乓球馆', '夜总会', '露营地', '休闲场所|购物服务', '采摘园|公司企业', '迪厅',
       '疗养院|生活服务', '水上活动中心', '休闲场所|餐饮服务', 'KTV|餐饮服务', '网球场', '休闲场所|公司企业',
       '棋牌室|科教文化服务', '休闲场所|生活服务', '采摘园|科教文化服务', '度假村|体育休闲服务', '剧场|体育休闲服务',
       '运动场所|地名地址信息', '游泳馆|生活服务', '休闲场所|住宿服务', '疗养院|商务住宅', '棋牌室|餐饮服务',
       '马术俱乐部', '台球厅|餐饮服务', '休闲场所|风景名胜', '影剧院相关', '游泳馆|公司企业', '健身中心|生活服务',
       '网吧|餐饮服务', 'KTV|体育休闲服务', '酒吧|购物服务', '酒吧|餐饮服务', 'KTV|购物服务'],
      dtype=object)

In [15]:
import pandas as pd
import os

# ================= 1. 針對「休閒娛樂/體育」的 Mapping Rules =================
mapping_rules = {
    # --- Nightlife (夜生活) ---
    '酒吧': 'bar',
    'KTV': 'nightclub',        # KTV 類似俱樂部性質
    '夜总会': 'nightclub',
    '迪厅': 'nightclub',        # Disco

    # --- Entertainment (娛樂) ---
    '电影院': 'cinema',
    '影剧院相关': 'cinema',     # 或 theatre
    '剧场': 'theatre',
    '网吧': 'internet_cafe',
    '游戏厅': 'commercial',     # 遊戲機台，清單無 arcade，歸類商業
    '棋牌室': 'gambling',       # 麻將館/棋牌室屬於博弈性質

    # --- Sports (體育運動) ---
    '健身中心': 'sports_centre',
    '体育休闲服务场所': 'sports_centre',
    '综合体育馆': 'sports_centre',
    '运动场所': 'sports_centre',
    '游泳馆': 'sports_centre',
    '足球场': 'sports_centre',  # 若有 stadium 可用 stadium，這裡統用 sports_centre
    '篮球场馆': 'sports_centre',
    '羽毛球场': 'sports_centre',
    '乒乓球馆': 'sports_centre',
    '网球场': 'sports_centre',
    '滑雪场': 'sports_centre',
    '溜冰场': 'sports_centre',
    '台球厅': 'sports_centre',  # 撞球

    # --- Specific Sports (特殊運動) ---
    '跆拳道场馆': 'dojo',         # Amenity List 有這個

    # --- Leisure / Tourism (休閒旅遊) ---
    '度假村': 'hotel',          # 住宿性質
    '疗养院': 'hospital',       # 或 clinic，視為醫療機構
    '采摘园': 'greenhouse',     # 農業觀光，通常有溫室
    '垂钓园': 'commercial',     # 付費釣魚場
    '露营地': 'commercial',     # 清單無 campsite，暫歸商業
    '游乐场': 'commercial',     # 清單無 theme_park
    '水上活动中心': 'sports_centre',
}

# ================= 2. 定義轉換函式 =================
def get_osm_tag(micro_class_str):
    """
    輸入: 'KTV|体育休闲服务'
    輸出: 'nightclub'
    """
    if pd.isna(micro_class_str) or micro_class_str == '':
        return 'commercial' 
    
    # 強制轉字串
    micro_class_str = str(micro_class_str)
        
    # 1. 處理 '|' 符號，只取第一部分
    clean_name = micro_class_str.split('|')[0]
    
    # 2. 直接查表
    if clean_name in mapping_rules:
        return mapping_rules[clean_name]
    
    return 'commercial'

df['osm_tag'] = df['行业小类'].apply(get_osm_tag)

# (可選) 檢查輸出結果
print("預覽娛樂類資料處理結果:")
print(df[['name', '行业小类', 'osm_tag']].head(25))

# ================= 4. 寫入 CSV (Append 模式) =================
output_file = 'mapped_data.csv'

預覽娛樂類資料處理結果:
                name      行业小类        osm_tag
0                乐巢会        酒吧            bar
1            板桥壹号KTV       KTV      nightclub
2            金色世界演歌厅       KTV      nightclub
3               柒個变当  体育休闲服务场所  sports_centre
4             麻六来棋牌室       棋牌室       gambling
5               氿筒棋牌       棋牌室       gambling
6         小年轻·云南音乐烤吧       棋牌室       gambling
7        百渡网咖(太滆西路店)        网吧  internet_cafe
8             困·来棋牌室       棋牌室       gambling
9              上座棋牌室       棋牌室       gambling
10   WHOSE BLUE(大浦店)        酒吧            bar
11           吉力体育轮滑馆       溜冰场  sports_centre
12       纤韵瑜伽(和信广场店)      健身中心  sports_centre
13    凯歌KTV(宜兴和信广场店)       KTV      nightclub
14       凌风棋牌室(大统华店)       棋牌室       gambling
15        童康乐园(大统华店)      休闲场所     commercial
16            新途鸡尾酒吧        酒吧            bar
17               游戏室       游戏厅     commercial
18           鑫悦台球俱乐部       台球厅  sports_centre
19              人民剧院        剧场        theatre
20             ins酒窝 

In [16]:
# 檢查檔案是否存在
file_exists = os.path.exists(output_file)

df.to_csv(
    output_file, 
    mode='a',                # 追加模式
    index=False, 
    header=not file_exists,  # 若檔案存在則不寫標題
    encoding='utf-8-sig'
)

print(f"成功追加 {len(df)} 筆娛樂體育類資料到 {output_file}")

成功追加 1641 筆娛樂體育類資料到 mapped_data.csv


### 醫療保健

In [17]:
# 1. 讀取 CSV (請確認編碼，中文常是 utf-8-sig 或 gb18030)
file_path = 'Yixing_data/2024_江苏省_无锡市_宜兴市_医疗保健服务.csv'  # 你的檔案名稱
try:
    df = pd.read_csv(file_path, encoding='utf-8-sig')
except UnicodeDecodeError:
    df = pd.read_csv(file_path, encoding='gb18030')

In [18]:
df['行业小类'].unique()

array(['卫生院', '药房', '诊所', '医疗保健服务场所', '口腔医院|医疗保健服务', '综合医院', '医疗保健用品',
       '口腔医院', '整形美容', '眼科医院', '宠物诊所', '卫生院|医疗保健服务', '专科医院', '医药保健相关',
       '急救中心', '医疗保健用品|医疗保健服务', '兽医站', '妇科医院', '动物医疗场所', '三级甲等医院',
       '三级甲等医院|医疗保健服务', '药房|医疗保健服务', '骨科医院', '综合医院|医疗保健服务', '耳鼻喉医院',
       '疾病预防', '专科医院|医疗保健服务', '骨科医院|医疗保健服务', '核酸检测'], dtype=object)

In [19]:
import pandas as pd
import os

# ================= 1. 針對「醫療保健」的 Mapping Rules =================
mapping_rules = {
    # --- Pharmacy (藥局/醫療用品) ---
    '药房': 'pharmacy',
    '医疗保健用品': 'pharmacy',  # 視為販售醫療用品的商店
    
    # --- Dentist (牙醫) ---
    '口腔医院': 'dentist',       # 雖然叫醫院，但功能是牙科

    # --- Veterinary (獸醫) ---
    '宠物诊所': 'veterinary',
    '兽医站': 'veterinary',
    '动物医疗场所': 'veterinary',

    # --- Hospital (大型醫院/專科醫院 - 來自 Building List) ---
    '综合医院': 'hospital',
    '三级甲等医院': 'hospital',
    '专科医院': 'hospital',
    '妇科医院': 'hospital',
    '骨科医院': 'hospital',
    '耳鼻喉医院': 'hospital',
    '眼科医院': 'hospital',      # 專科醫院通常規模較大，歸為 hospital
    '急救中心': 'hospital',      # 通常附屬於醫院

    # --- Clinic / Doctors (診所/衛生院/小型醫療點) ---
    '诊所': 'clinic',
    '卫生院': 'clinic',          # 鄉鎮衛生院通常規模介於醫院和診所之間，clinic 較合適
    '整形美容': 'clinic',        # 醫美診所
    '医疗保健服务场所': 'clinic', # 泛指醫療點
    '医药保健相关': 'clinic',
    '核酸检测': 'clinic',        # 臨時醫療點
    
    # --- Public (公共衛生/政府機構 - 來自 Building List) ---
    '疾病预防': 'public',        # 疾控中心 (CDC)
}

# ================= 2. 定義轉換函式 =================
def get_osm_tag(micro_class_str):
    """
    輸入: '口腔医院|医疗保健服务'
    輸出: 'dentist'
    """
    if pd.isna(micro_class_str) or micro_class_str == '':
        return 'clinic' # 若資料缺失，預設為診所
    
    # 強制轉字串
    micro_class_str = str(micro_class_str)
        
    # 1. 處理 '|' 符號，只取第一部分
    clean_name = micro_class_str.split('|')[0]
    
    # 2. 直接查表
    if clean_name in mapping_rules:
        return mapping_rules[clean_name]
    
    return 'clinic'

# 應用函式
df['osm_tag'] = df['行业小类'].apply(get_osm_tag)

# (可選) 檢查輸出結果
print("預覽醫療類資料處理結果:")
print(df[['name', '行业小类', 'osm_tag']].head(25))

預覽醫療類資料處理結果:
                name         行业小类   osm_tag
0   宜兴市屺亭街道五星社区卫生服务站          卫生院    clinic
1              嘉辉大药房           药房  pharmacy
2             白氏内科诊所           诊所    clinic
3         夏芳社区卫生服务中心          卫生院    clinic
4     高济天健医药连锁(扶风药店)           药房  pharmacy
5                汐阳堂     医疗保健服务场所    clinic
6               左氏牙科  口腔医院|医疗保健服务   dentist
7              海王百草堂           药房  pharmacy
8            艺耳采耳养生馆           药房  pharmacy
9          艺耳(采耳养身馆)     医疗保健服务场所    clinic
10           新芳人民大药房           药房  pharmacy
11             伏云养生馆     医疗保健服务场所    clinic
12    宜兴市杨巷镇健康药店有限公司           药房  pharmacy
13      杨巷镇新芳社区卫生服务站          卫生院    clinic
14      天健医药连锁(新西路店)           药房  pharmacy
15             新芳国药店           药房  pharmacy
16              新芳医院         综合医院  hospital
17             新芳卫生院          卫生院    clinic
18    高济天健医药连锁(新芳药店)           药房  pharmacy
19           仁和医用冷敷贴       医疗保健用品  pharmacy
20           牙管家口腔诊所         口腔医院   dentist
21         张渚镇茶亭村卫生

In [20]:
output_file = 'mapped_data.csv'

# 檢查檔案是否存在
file_exists = os.path.exists(output_file)

df.to_csv(
    output_file, 
    mode='a',                # 追加模式
    index=False, 
    header=not file_exists,  # 若檔案存在則不寫標題
    encoding='utf-8-sig'
)

print(f"成功追加 {len(df)} 筆醫療類資料到 {output_file}")

成功追加 2279 筆醫療類資料到 mapped_data.csv


### 住宅

In [21]:
file_path = 'Yixing_data/2024_江苏省_无锡市_宜兴市_商务住宅.csv'  # 你的檔案名稱
try:
    df = pd.read_csv(file_path, encoding='utf-8-sig')
except UnicodeDecodeError:
    df = pd.read_csv(file_path, encoding='gb18030')

In [22]:
df['行业小类'].unique()

array(['住宅小区|体育休闲服务', '住宅小区|生活服务', '住宅小区|餐饮服务', '社区中心|政府机构及社会团体',
       '住宅小区|政府机构及社会团体', '商务写字楼|生活服务', '楼宇相关|餐饮服务', '住宅小区', '住宅小区|地名地址信息',
       '商务写字楼', '别墅', '商务住宅相关', '社区中心', '宿舍', '产业园区', '住宅小区|购物服务', '住宅区',
       '产业园区|风景名胜', '住宅小区|住宿服务', '商住两用楼宇', '住宅小区|公司企业', '楼宇相关',
       '住宅小区|商务住宅', '产业园区|公司企业', '产业园区|购物服务', '产业园区|科教文化服务', '别墅|商务住宅'],
      dtype=object)

In [23]:
import pandas as pd
import os

# ================= 1. 針對「居住/辦公/社區」的 Mapping Rules =================
mapping_rules = {
    # --- Residential (居住) ---
    '住宅小区': 'apartments',   # 小區通常是公寓大樓群
    '住宅区': 'residential',    # 泛指居住區
    '别墅': 'detached',         # 獨棟別墅
    '宿舍': 'dormitory',        # 員工或學生宿舍
    '商住两用楼宇': 'apartments',# 商住兩用通常偏向居住(公寓)

    # --- Office / Commercial (辦公/商業) ---
    '商务写字楼': 'office',
    '商务住宅相关': 'apartments',   # 寫字樓/商務樓
    '楼宇相关': 'apartments',   # 泛指一般大樓，歸類商業
    
    # --- Industrial (產業) ---
    '产业园区': 'industrial',   # 工業園區/科技園區

    # --- Community (社區功能) ---
    '社区中心': 'apartments', # 社區居委會/活動中心
}

# ================= 2. 定義轉換函式 =================
def get_osm_tag(micro_class_str):
    """
    輸入: '住宅小区|体育休闲服务'
    輸出: 'apartments'
    """
    if pd.isna(micro_class_str) or micro_class_str == '':
        return 'residential' # 預設為一般居住地
    
    # 強制轉字串
    micro_class_str = str(micro_class_str)
        
    # 1. 處理 '|' 符號，只取第一部分
    clean_name = micro_class_str.split('|')[0]
    
    # 2. 直接查表
    if clean_name in mapping_rules:
        return mapping_rules[clean_name]

    return 'residential'

# 應用函式
df['osm_tag'] = df['行业小类'].apply(get_osm_tag)

# (可選) 檢查輸出結果
print("預覽居住辦公類資料處理結果:")
print(df[['name', '行业小类', 'osm_tag']].head(25))

預覽居住辦公類資料處理結果:
            name            行业小类     osm_tag
0           城市年代     住宅小区|体育休闲服务  apartments
1             和苑       住宅小区|生活服务  apartments
2           幸福家园       住宅小区|餐饮服务  apartments
3     鲸塘社区党群服务中心  社区中心|政府机构及社会团体  apartments
4          华香苑饭店       住宅小区|餐饮服务  apartments
5            怡然居       住宅小区|餐饮服务  apartments
6           湖光山色       住宅小区|餐饮服务  apartments
7       宜城街道长新社区  住宅小区|政府机构及社会团体  apartments
8           宝塔社区  住宅小区|政府机构及社会团体  apartments
9            燕云楼       住宅小区|餐饮服务  apartments
10  宜兴邮政电子商务运营中心      商务写字楼|生活服务      office
11          堂前人家       住宅小区|餐饮服务  apartments
12          锦丰酒楼       住宅小区|餐饮服务  apartments
13           得悦楼       楼宇相关|餐饮服务  apartments
14        新城花园西区            住宅小区  apartments
15          新城花园            住宅小区  apartments
16        新城花园东区            住宅小区  apartments
17          安康小区            住宅小区  apartments
18          御景豪庭            住宅小区  apartments
19          溪隐社区            住宅小区  apartments
20          荆邑山庄            住宅小区  apartm

In [24]:

output_file = 'mapped_data.csv'

# 檢查檔案是否存在
file_exists = os.path.exists(output_file)

df.to_csv(
    output_file, 
    mode='a',                # 追加模式
    index=False, 
    header=not file_exists,  # 若檔案存在則不寫標題
    encoding='utf-8-sig'
)

print(f"成功追加 {len(df)} 筆居住辦公類資料到 {output_file}")

成功追加 1305 筆居住辦公類資料到 mapped_data.csv


### 生活服務

In [25]:
file_path = 'Yixing_data/2024_江苏省_无锡市_宜兴市_生活服务.csv'  # 你的檔案名稱
try:
    df = pd.read_csv(file_path, encoding='utf-8-sig')
except UnicodeDecodeError:
    df = pd.read_csv(file_path, encoding='gb18030')

In [26]:
df['行业小类'].unique()

array(['维修站点|摩托车服务', '生活服务场所|汽车维修', '维修站点|汽车维修', '会计师事务所|公司企业',
       '洗浴推拿场所|体育休闲服务', '生活服务场所|金融保险服务', '维修站点', '物流速递', '生活服务场所',
       '洗浴推拿场所', '彩票彩券销售点', '中介机构', '美容美发店', '旅行社', '美容美发店|餐饮服务', '摄影冲印',
       '美容美发店|购物服务', '邮局', '洗衣店', '中国移动营业厅', '电力营业厅', '中国电信营业厅',
       '中国联通营业厅', '生活服务场所|购物服务', '律师事务所', '充电宝', '事务所', '美容美发店|生活服务',
       '公园景点售票处', '丧葬设施', '中国电信营业厅|购物服务', '生活服务场所|科教文化服务', '搬家公司',
       '物流仓储场地', '人才市场', '中国联通营业厅|购物服务', '婴儿游泳馆', '丧葬设施|购物服务', '殡仪馆',
       '公墓', '洗浴推拿场所|公司企业', '售票处', '服务中心', '洗浴推拿场所|购物服务', '电讯营业厅',
       '火车票代售点', '洗浴推拿场所|生活服务', '维修站点|购物服务', '中国移动营业厅|购物服务', '会计师事务所',
       '物流速递|公司企业', '维修站点|生活服务', '陵园', '评估事务所', '生活服务场所|商务住宅',
       '中介机构|购物服务', '洗浴推拿场所|住宿服务', '生活服务场所|政府机构及社会团体', '飞机票代售点',
       '生活服务场所|公司企业', '洗衣店|餐饮服务', '维修站点|汽车服务', '中介机构|公司企业', '信息咨询中心',
       '洗浴推拿场所|餐饮服务', '邮政速递', '邮政速递|公司企业', '美容美发店|科教文化服务', '人才市场|公司企业',
       '洗浴推拿场所|商务住宅', '生活服务场所|餐饮服务', '物流速递|购物服务', '维修站点|公司企业',
       '中国移动营业厅|生活服务', '美容美发店|公司企业', '生活服务场所|汽车服务', 

In [27]:
import pandas as pd
import os

# ================= 1. 針對「生活服務/物流/中介」的 Mapping Rules =================
mapping_rules = {
    # --- Post & Logistics (郵政物流) ---
    '邮局': 'post_office',
    '邮政速递': 'post_office',
    '物流速递': 'warehouse',        # 物流站點視為倉儲/配送中心
    '物流仓储场地': 'warehouse',

    # --- Funeral (喪葬) ---
    '公墓': 'grave_yard',
    '陵园': 'grave_yard',
    '丧葬设施': 'public',           # 殯儀館等歸類為公共建築
    '殡仪馆': 'public',

    # --- Office / Agency (中介/事務所) ---
    '会计师事务所': 'office',
    '律师事务所': 'office',
    '事务所': 'office',
    '中介机构': 'office',
    '人才市场': 'office',
    '信息咨询中心': 'office',
    '评估事务所': 'office',
    '旅行社': 'office',             # 雖然也是服務，但通常是辦公室型態
    '搬家公司': 'office',

    # --- Retail / Telecom (零售/電信) ---
    '中国移动营业厅': 'retail',
    '中国电信营业厅': 'retail',
    '中国联通营业厅': 'retail',
    '电讯营业厅': 'retail',         # 手機行/營業廳歸類為零售
    '充电宝': 'charging_station',   # 共享充電設備

    # --- Service (一般生活服務 - 來自 Building List) ---
    '维修站点': 'service',          # 維修店
    '洗浴推拿场所': 'service',      # 按摩/洗浴
    '美容美发店': 'service',        # 理髮美容
    '洗衣店': 'service',
    '摄影冲印': 'service',
    '婴儿游泳馆': 'service',        # 服務性質
    '服务中心': 'service',
    
    # --- Gambling (彩票) ---
    '彩票彩券销售点': 'gambling',

    # --- Tickets (票務) ---
    '售票处': 'commercial',         # 售票點
    '火车票代售点': 'commercial',
    '飞机票代售点': 'commercial',
    '公园景点售票处': 'commercial',
}

# ================= 2. 定義轉換函式 =================
def get_osm_tag(micro_class_str):
    """
    輸入: '维修站点|摩托车服务'
    輸出: 'service'
    """
    if pd.isna(micro_class_str) or micro_class_str == '':
        return 'service' # 預設為服務設施
    
    # 強制轉字串
    micro_class_str = str(micro_class_str)
        
    # 1. 處理 '|' 符號，只取第一部分
    clean_name = micro_class_str.split('|')[0]
    
    # 2. 直接查表
    if clean_name in mapping_rules:
        return mapping_rules[clean_name]
    # 4. 最後預設值
    return 'service'

# 應用函式
df['osm_tag'] = df['行业小类'].apply(get_osm_tag)

# (可選) 檢查輸出結果
print("預覽生活服務類資料處理結果:")
print(df[['name', '行业小类', 'osm_tag']].head(25))


預覽生活服務類資料處理結果:
              name           行业小类    osm_tag
0   摩托车电动车修理(中桥路店)     维修站点|摩托车服务    service
1          香樟树无痕修复    生活服务场所|汽车维修    service
2             热补轮胎      维修站点|汽车维修    service
3            凯立达财税    会计师事务所|公司企业     office
4             鹏鹞会所  洗浴推拿场所|体育休闲服务    service
5    苏平电动车摩托车修理修理部     维修站点|摩托车服务    service
6           天水休闲中心  洗浴推拿场所|体育休闲服务    service
7            徐舍揽投部  生活服务场所|金融保险服务    service
8         馨诚工程机械修配           维修站点    service
9             安能物流           物流速递  warehouse
10     宜兴市寰衡运输有限公司           物流速递  warehouse
11            富兴货运           物流速递  warehouse
12           废品回收站         生活服务场所    service
13          小范木料收购         生活服务场所    service
14          功手道养生馆         洗浴推拿场所    service
15    中国福利彩票(中桥路店)        彩票彩券销售点   gambling
16            雅居装饰         生活服务场所    service
17            家电维修           维修站点    service
18            秀顺浴场         洗浴推拿场所    service
19      中通快递(中桥路店)           物流速递  warehouse
20      圆通速递(中桥路店)           物流速递  wareh

In [28]:

output_file = 'mapped_data.csv'

# 檢查檔案是否存在
file_exists = os.path.exists(output_file)

df.to_csv(
    output_file, 
    mode='a',                # 追加模式
    index=False, 
    header=not file_exists,  # 若檔案存在則不寫標題
    encoding='utf-8-sig'
)

print(f"成功追加 {len(df)} 筆生活服務類資料到 {output_file}")

成功追加 10157 筆生活服務類資料到 mapped_data.csv


### 教育

In [29]:
file_path = 'Yixing_data/2024_江苏省_无锡市_宜兴市_科教文化服务.csv'  # 你的檔案名稱
try:
    df = pd.read_csv(file_path, encoding='utf-8-sig')
except UnicodeDecodeError:
    df = pd.read_csv(file_path, encoding='gb18030')

In [30]:
df['行业小类'].unique()

array(['科教文化场所|生活服务', '培训机构|生活服务', '文化宫|生活服务', '传媒机构|生活服务', '驾校|生活服务',
       '科研机构|生活服务', '美术馆|生活服务', '传媒机构', '幼儿园', '美术馆', '培训机构', '会展中心',
       '传媒机构|公司企业', '科教文化场所', '科研机构', '驾校', '博物馆', '中学', '展览馆|科教文化服务',
       '展览馆|购物服务', '小学', '展览馆', '文化宫', '科研机构|公司企业', '成人教育', '培训机构|购物服务',
       '博物馆|购物服务', '电视台', '学校', '文艺团体', '职业技术学校', '档案馆', '科技馆',
       '美术馆|购物服务', '培训机构|商务住宅', '高等院校', '成人教育|科教文化服务', '中学|科教文化服务',
       '美术馆|科教文化服务', '图书馆', '科研机构|购物服务', '会展中心|科教文化服务', '学校|科教文化服务',
       '幼儿园|科教文化服务'], dtype=object)

In [31]:
import pandas as pd
import os

# ================= 1. 針對「科教文化/傳媒」的 Mapping Rules =================
mapping_rules = {
    # --- Education (正規教育) ---
    '幼儿园': 'kindergarten',
    '小学': 'school',
    '中学': 'school',
    '学校': 'school',
    '高等院校': 'university',
    '职业技术学校': 'college',
    '成人教育': 'college',

    # --- Training (培訓/駕校) ---
    '培训机构': 'training',
    '驾校': 'driving_school',

    # --- Culture / Arts (文化/博物館) ---
    # 因清單無 museum，使用 arts centre 或 exhibition centre
    '美术馆': 'arts_centre',
    '文化宫': 'arts_centre',      # 文化活動中心
    '博物馆': 'arts_centre',      # 暫代 museum
    '科技馆': 'arts_centre',      # 或 public
    '科教文化场所': 'service',
    '图书馆': 'library',
    '档案馆': 'library',           # 公共檔案機構

    # --- Media / Studio (傳媒/演藝) ---
    '传媒机构': 'office',         # 包含電視台、廣播、製作公司
    '电视台': 'office',
    '文艺团体': 'office',         # 劇團/演藝團體排練場

    # --- Exhibition (展覽) ---
    '会展中心': 'exhibition_centre',
    '展览馆': 'exhibition_centre',

    # --- Research (科研) ---
    '科研机构': 'office',         # 研究院通常為辦公室形態
}

# ================= 2. 定義轉換函式 =================
def get_osm_tag(micro_class_str):
    """
    輸入: '培训机构|生活服务'
    輸出: 'training'
    """
    if pd.isna(micro_class_str) or micro_class_str == '':
        return 'school' # 若資料缺失，保守預設為學校或公共建築
    
    # 強制轉字串
    micro_class_str = str(micro_class_str)
        
    # 1. 處理 '|' 符號，只取第一部分
    clean_name = micro_class_str.split('|')[0]
    
    # 2. 直接查表
    if clean_name in mapping_rules:
        return mapping_rules[clean_name]
        
    # 4. 最後預設值
    return 'school'

# 應用函式
df['osm_tag'] = df['行业小类'].apply(get_osm_tag)

# (可選) 檢查輸出結果
print("預覽科教文化類資料處理結果:")
print(df[['name', '行业小类', 'osm_tag']].head(25))

預覽科教文化類資料處理結果:
                 name         行业小类            osm_tag
0                耘品杂志  科教文化场所|生活服务            service
1          未成年人成长指导中心    培训机构|生活服务           training
2                小燕美术    培训机构|生活服务           training
3            宜城街道文体中心     文化宫|生活服务        arts_centre
4                 乐知轩    培训机构|生活服务           training
5     宜兴市广播电视台(张渚营业厅)    传媒机构|生活服务             office
6                桃溪足浴      驾校|生活服务     driving_school
7            金陵本初婚礼策划  科教文化场所|生活服务            service
8                琢壶画室    培训机构|生活服务           training
9       保时捷景观喷泉设计研发中心    科研机构|生活服务             office
10      赢悦文化(宜兴万达广场店)    培训机构|生活服务           training
11              向阳花美术    培训机构|生活服务           training
12         陈午敏紫砂壶艺工作室     美术馆|生活服务        arts_centre
13               兴陶驾校      驾校|生活服务     driving_school
14  陶都机动车驾驶员培训有限公司报名点      驾校|生活服务     driving_school
15       宜兴星麓文化传媒有限公司         传媒机构             office
16            金色年华幼儿园          幼儿园       kindergarten
17           

In [32]:
output_file = 'mapped_data.csv'

# 檢查檔案是否存在
file_exists = os.path.exists(output_file)

df.to_csv(
    output_file, 
    mode='a',                # 追加模式
    index=False, 
    header=not file_exists,  # 若檔案存在則不寫標題
    encoding='utf-8-sig'
)

print(f"成功追加 {len(df)} 筆科教文化類資料到 {output_file}")

成功追加 1716 筆科教文化類資料到 mapped_data.csv


### 購物

In [33]:
file_path = 'Yixing_data/2024_江苏省_无锡市_宜兴市_购物服务.csv'  # 你的檔案名稱
try:
    df = pd.read_csv(file_path, encoding='utf-8-sig')
except UnicodeDecodeError:
    df = pd.read_csv(file_path, encoding='gb18030')

In [34]:
df['行业小类'].unique()

array(['自行车专卖店|摩托车服务', '便民商店/便利店|生活服务', '购物相关场所|汽车销售', '果品市场|体育休闲服务',
       '专营店|体育休闲服务', '便民商店/便利店|体育休闲服务', '专营店|汽车维修', '儿童用品店|体育休闲服务',
       '宠物用品店|医疗保健服务', '土特产专卖店|体育休闲服务', '购物相关场所|室内设施', '烟酒专卖店|体育休闲服务',
       '手机销售|生活服务', '数码电子|生活服务', '专营店|餐饮服务', '建材五金市场|生活服务', '专营店|生活服务',
       '服装鞋帽皮具店|生活服务', '购物相关场所|生活服务', '购物相关场所|餐饮服务', '自行车专卖店|生活服务',
       '综合市场|生活服务', '烟酒专卖店|餐饮服务', '儿童用品店|生活服务', '果品市场|生活服务', '蔬菜市场|生活服务',
       '家电电子卖场|生活服务', '服装鞋帽皮具店|餐饮服务', '儿童用品店|餐饮服务', '宠物用品店|生活服务',
       '珠宝首饰工艺品|生活服务', '农副产品市场|生活服务', '花卉市场|生活服务', '果品市场|餐饮服务',
       '厨卫市场|生活服务', '其它个人用品店|生活服务', '便民商店/便利店|餐饮服务', '古玩字画店|餐饮服务',
       '土特产专卖店|生活服务', '蔬菜市场|餐饮服务', '农副产品市场|餐饮服务', '古玩字画店|生活服务',
       '家居建材市场|生活服务', '水产海鲜市场|餐饮服务', '品牌鞋店|生活服务', '超市|生活服务', '手机销售|公司企业',
       '品牌服装店|生活服务', '品牌服装店|餐饮服务', '超市|餐饮服务', '灯具瓷器市场|生活服务', '文化用品店|餐饮服务',
       '烟酒专卖店|生活服务', '宠物用品店|餐饮服务', '珠宝首饰工艺品|餐饮服务', '建材五金市场|餐饮服务',
       '布艺市场|生活服务', '书店|生活服务', '自行车专卖店|餐饮服务', '建材五金市场', '厨卫市场',
       '便民商店/便利店', '超市', '烟酒专卖店', '购物

In [35]:
import pandas as pd
import os

# ================= 1. 針對「零售購物」的 Mapping Rules =================
mapping_rules = {
    # --- Market (各類市場 - 重點對應) ---
    '果品市场': 'marketplace',
    '蔬菜市场': 'marketplace',
    '农副产品市场': 'marketplace',
    '水产海鲜市场': 'marketplace',
    '综合市场': 'marketplace',
    '花卉市场': 'marketplace',
    '花鸟鱼虫市场': 'marketplace',
    '旧货市场': 'marketplace',
    '小商品市场': 'marketplace',

    # --- Supermarket / Convenience (超市便利 - 用 marketplace 或 retail) ---
    '便民商店/便利店': 'marketplace', # 清單無 convenience，用 marketplace 最接近
    '超市': 'marketplace',         # 清單無 supermarket
    '华润': 'marketplace',
    '上海华联': 'marketplace',
    '苏宁': 'retail',             # 電器行
    '国美': 'retail',
    '麦德龙': 'marketplace',
    '卜蜂莲花': 'marketplace',
    '屈臣氏': 'retail',           # 藥妝店

    # --- Mall / Shopping Center (商場 - 用 retail) ---
    '购物中心': 'retail',
    '商场': 'retail',
    '普通商场': 'retail',
    '综合家电商场': 'retail',
    '特色商业街': 'retail',
    '步行街': 'retail',
    '家具城': 'retail',           # 大型家具賣場
    '家具建材综合市场': 'retail', # 建材城通常是零售集合

    # --- Specialty Stores (專賣店 - 全部歸類 retail) ---
    '自行车专卖店': 'retail',      # 若有維修可選 bicycle repair station，但這裡是專賣店
    '专营店': 'retail',
    '儿童用品店': 'retail',
    '宠物用品店': 'retail',
    '土特产专卖店': 'retail',
    '烟酒专卖店': 'retail',
    '手机销售': 'retail',
    '数码电子': 'retail',
    '建材五金市场': 'retail',     # 建材五金店
    '服装鞋帽皮具店': 'retail',
    '家电电子卖场': 'retail',
    '珠宝首饰工艺品': 'retail',
    '厨卫市场': 'retail',
    '古玩字画店': 'retail',
    '家居建材市场': 'retail',
    '品牌鞋店': 'retail',
    '品牌服装店': 'retail',
    '灯具瓷器市场': 'retail',
    '文化用品店': 'retail',
    '布艺市场': 'retail',
    '书店': 'retail',
    '眼镜店': 'retail',
    '钟表店': 'retail',
    '体育用品店': 'retail',
    '礼品饰品店': 'retail',
    '音像店': 'retail',
    '户外用品': 'retail',
    '摄影器材店': 'retail',
    '品牌箱包店': 'retail',
    '免税品店': 'retail',
    '典当行': 'retail',           # 或 commercial
    '拍卖行': 'retail',

    # --- Brands (品牌) ---
    '耐克专卖店': 'retail',
    '阿迪达斯专卖店': 'retail',
    '李宁专卖店': 'retail',
    '彪马专卖店': 'retail',
    '品牌皮具店': 'retail',
    
    # --- Others ---
    '购物相关场所': 'retail',
    '特殊买卖场所': 'retail',
}

# ================= 2. 定義轉換函式 =================
def get_osm_tag(micro_class_str):
    """
    輸入: '自行车专卖店|摩托车服务'
    輸出: 'retail'
    """
    if pd.isna(micro_class_str) or micro_class_str == '':
        return 'retail' # 預設為零售
    
    # 強制轉字串
    micro_class_str = str(micro_class_str)
        
    # 1. 處理 '|' 符號，只取第一部分
    clean_name = micro_class_str.split('|')[0]
    
    # 2. 直接查表
    if clean_name in mapping_rules:
        return mapping_rules[clean_name]
    # 4. 最後預設值
    return 'retail'

# 應用函式
df['osm_tag'] = df['行业小类'].apply(get_osm_tag)

# (可選) 檢查輸出結果
print("預覽購物類資料處理結果:")
print(df[['name', '行业小类', 'osm_tag']].head(25))

預覽購物類資料處理結果:
              name             行业小类      osm_tag
0      万友车行(金箭电动车)     自行车专卖店|摩托车服务       retail
1             文鸿车行     自行车专卖店|摩托车服务       retail
2             国仔车行     自行车专卖店|摩托车服务       retail
3             新东浴场    便民商店/便利店|生活服务  marketplace
4             老王车行     自行车专卖店|摩托车服务       retail
5   南仓兔喜生活店(君悦府邸店)      购物相关场所|汽车销售       retail
6     阳山水蜜桃(通真观路店)      果品市场|体育休闲服务  marketplace
7    雀友娱乐家电专家宜兴总代理       专营店|体育休闲服务       retail
8           官林副食超市  便民商店/便利店|体育休闲服务  marketplace
9        永明车行(龙池路)     自行车专卖店|摩托车服务       retail
10            信谊车行     自行车专卖店|摩托车服务       retail
11       小峰车行(叠翠路)     自行车专卖店|摩托车服务       retail
12            艺军车行     自行车专卖店|摩托车服务       retail
13        华西纺配批发中心         专营店|汽车维修       retail
14  孩子王(无锡宜兴万达广场店)     儿童用品店|体育休闲服务       retail
15    宗申车辆宜兴地区总经销店     自行车专卖店|摩托车服务       retail
16             家林园       专营店|体育休闲服务       retail
17            乔俊车行     自行车专卖店|摩托车服务       retail
18           爱之宠宠物     宠物用品店|医疗保健服务       retail
19     

In [36]:
output_file = 'mapped_data.csv'

# 檢查檔案是否存在
file_exists = os.path.exists(output_file)

df.to_csv(
    output_file, 
    mode='a',                # 追加模式
    index=False, 
    header=not file_exists,  # 若檔案存在則不寫標題
    encoding='utf-8-sig'
)

print(f"成功追加 {len(df)} 筆購物類資料到 {output_file}")

成功追加 26404 筆購物類資料到 mapped_data.csv


### 金融

In [37]:
file_path = 'Yixing_data/2024_江苏省_无锡市_宜兴市_金融保险服务.csv'  # 你的檔案名稱
try:
    df = pd.read_csv(file_path, encoding='utf-8-sig')
except UnicodeDecodeError:
    df = pd.read_csv(file_path, encoding='gb18030')

In [38]:
df['行业小类'].unique()

array(['农村商业银行', '金融保险机构', '农村商业银行ATM', '中国邮政储蓄银行', '兴业银行', '中国人寿保险公司',
       '中国建设银行', '中国建设银行ATM', '中国农业银行ATM', '中国农业银行', '交通银行ATM', '交通银行',
       '保险公司', '中国邮政储蓄银行ATM', '银行', '证券营业厅', '广发银行ATM', '广发银行', '招商银行',
       '招商银行ATM', '中国人民保险公司', '中国工商银行', '中国平安保险公司', '中国工商银行ATM', '中国银行',
       '中国银行ATM', '中国太平洋保险', '证券公司', '上海浦东发展银行', '自动提款机', '华夏银行',
       '中国民生银行', '中国邮政储蓄银行|公司企业', '财务公司', '中信银行', '中信银行ATM', '中国光大银行',
       '中国光大银行ATM', '农村商业银行|金融保险服务', '新华人寿保险公司', '中国民生银行ATM', '平安银行ATM',
       '平安银行', '华泰财产保险股份有限公司', '华夏银行ATM', '中国邮政储蓄银行|生活服务', '北京银行ATM',
       '北京银行', '上海浦东发展银行ATM', '汇丰银行', '金融保险机构|公司企业'], dtype=object)

In [39]:
mapping_rules = {
    # === ATM 類 (機器) ===
    '农村商业银行ATM': 'atm',
    '中国建设银行ATM': 'atm',
    '中国农业银行ATM': 'atm',
    '交通银行ATM': 'atm',
    '中国邮政储蓄银行ATM': 'atm',
    '广发银行ATM': 'atm',
    '招商银行ATM': 'atm',
    '中国工商银行ATM': 'atm',
    '中国银行ATM': 'atm',
    '自动提款机': 'atm',
    '中信银行ATM': 'atm',
    '中国光大银行ATM': 'atm',
    '中国民生银行ATM': 'atm',
    '平安银行ATM': 'atm',
    '华夏银行ATM': 'atm',
    '北京银行ATM': 'atm',
    '上海浦东发展银行ATM': 'atm',

    # === bank 類 (銀行、保險、證券、公司等據點) ===
    '农村商业银行': 'bank',
    '金融保险机构': 'bank',
    '中国邮政储蓄银行': 'bank',
    '兴业银行': 'bank',
    '中国人寿保险公司': 'bank',
    '中国建设银行': 'bank',
    '中国农业银行': 'bank',
    '交通银行': 'bank',
    '保险公司': 'bank',
    '银行': 'bank',
    '证券营业厅': 'bank',
    '广发银行': 'bank',
    '招商银行': 'bank',
    '中国人民保险公司': 'bank',
    '中国工商银行': 'bank',
    '中国平安保险公司': 'bank',
    '中国银行': 'bank',
    '中国太平洋保险': 'bank',
    '证券公司': 'bank',
    '上海浦东发展银行': 'bank',
    '华夏银行': 'bank',
    '中国民生银行': 'bank',
    '中国邮政储蓄银行|公司企业': 'bank',
    '财务公司': 'bank',
    '中信银行': 'bank',
    '中国光大银行': 'bank',
    '农村商业银行|金融保险服务': 'bank',
    '新华人寿保险公司': 'bank',
    '平安银行': 'bank',
    '华泰财产保险股份有限公司': 'bank',
    '中国邮政储蓄银行|生活服务': 'bank',
    '北京银行': 'bank',
    '汇丰银行': 'bank',
    '金融保险机构|公司企业': 'bank'
}

# ================= 2. 定義轉換函式 =================
def get_osm_tag(micro_class_str):
    """
    輸入: '自行车专卖店|摩托车服务'
    輸出: 'retail'
    """
    if pd.isna(micro_class_str) or micro_class_str == '':
        return 'retail' # 預設為零售
    
    # 強制轉字串
    micro_class_str = str(micro_class_str)
        
    # 1. 處理 '|' 符號，只取第一部分
    clean_name = micro_class_str.split('|')[0]
    
    # 2. 直接查表
    if clean_name in mapping_rules:
        return mapping_rules[clean_name]
    # 4. 最後預設值
    return 'bank'

# 應用函式
df['osm_tag'] = df['行业小类'].apply(get_osm_tag)

# (可選) 檢查輸出結果
print("預覽購物類資料處理結果:")
print(df[['name', '行业小类', 'osm_tag']].head(25))

預覽購物類資料處理結果:
                           name         行业小类 osm_tag
0               宜兴农村商业银行(云溪分理处)       农村商业银行    bank
1                  无锡中环资产管理有限公司       金融保险机构    bank
2                宜兴农村商业银行(新芳支行)       农村商业银行    bank
3     江苏宜兴农村商业银行24小时自助银行(新芳分理处)    农村商业银行ATM     atm
4             中国邮政储蓄银行(新芳新西路支行)     中国邮政储蓄银行    bank
5                兴业银行(宜兴东氿社区支行)         兴业银行    bank
6             中国人寿保险股份有限公司(振兴路)     中国人寿保险公司    bank
7                中国建设银行(宜兴城中支行)       中国建设银行    bank
8        中国建设银行24小时自助银行(宜城城中支行)    中国建设银行ATM     atm
9          中国农业银行24小时自助银行(宜兴支行)    中国农业银行ATM     atm
10                 中国农业银行(宜兴分行)       中国农业银行    bank
11             江苏宜兴农村商业银行(宜城支行)       农村商业银行    bank
12           交通银行24小时自助银行(宜兴支行)      交通银行ATM     atm
13       中国农业银行24小时自助银行(宜兴迎宾支行)    中国农业银行ATM     atm
14               中国农业银行(宜兴迎宾支行)       中国农业银行    bank
15                         中国人寿     中国人寿保险公司    bank
16               宜兴农村商业银行(宜城支行)       农村商业银行    bank
17                   交通银行(宜兴支行)  

In [40]:
output_file = 'mapped_data.csv'

# 檢查檔案是否存在
file_exists = os.path.exists(output_file)

df.to_csv(
    output_file, 
    mode='a',                # 追加模式
    index=False, 
    header=not file_exists,  # 若檔案存在則不寫標題
    encoding='utf-8-sig'
)

print(f"成功追加 {len(df)} 筆金融類資料到 {output_file}")

成功追加 679 筆金融類資料到 mapped_data.csv


### 汽車服務

In [41]:
file_path = 'Yixing_data/2024_江苏省_无锡市_宜兴市_汽车服务.csv'  # 你的檔案名稱
try:
    df = pd.read_csv(file_path, encoding='utf-8-sig')
except UnicodeDecodeError:
    df = pd.read_csv(file_path, encoding='gb18030')

In [42]:
df['行业小类'].unique()

array(['汽车服务相关|汽车销售', '二手车交易|汽车销售', '汽车养护|汽车服务', '汽车配件销售|汽车维修',
       '汽车养护|汽车维修', '汽车服务相关|汽车维修', '汽车养护|汽车销售', '洗车场|汽车服务', '汽车服务相关|生活服务',
       '汽车服务相关|政府机构及社会团体', '汽车服务相关', '汽车配件销售', '二手车交易', '汽车养护', '充电站',
       '洗车场', '汽车租赁', '汽车养护|生活服务', '中化道达尔', '中国石化', '二手车交易|购物服务',
       '汽车配件销售|公司企业', '汽车俱乐部', '加油站', '中国石油', '汽车配件销售|购物服务', '汽车救援',
       '汽车服务相关|公司企业', '专用充电站', '加气站', '壳牌'], dtype=object)

In [43]:
import pandas as pd

mapping_rules = {
    # === Fuel (加油站 & 知名油企) ===
    '加油站': 'fuel',
    '加气站': 'fuel',       # 天然氣加氣站
    '中国石化': 'fuel',     # Sinopec
    '中国石油': 'fuel',     # PetroChina
    '中化道达尔': 'fuel',   # Total
    '壳牌': 'fuel',         # Shell
    
    # === Car Wash (洗車) ===
    '洗车场': 'car_wash',
    
    # === Charging Station (充電站) ===
    # 既然是能源補充，通常也會一併處理，若不需要可註解掉
    '充电站': 'charging_station',
    '专用充电站': 'charging_station'
}

# ================= 2. 定義轉換函式 =================
def get_osm_tag(micro_class_str):
    """
    輸入: '洗车场|汽车服务'
    輸出: 'car_wash'
    若不在清單內則回傳 None
    """
    if pd.isna(micro_class_str) or micro_class_str == '':
        return None 
    
    # 強制轉字串
    micro_class_str = str(micro_class_str)
        
    # 1. 處理 '|' 符號，只取第一部分 (例如 '洗车场|汽车服务' -> '洗车场')
    clean_name = micro_class_str.split('|')[0]
    
    # 2. 直接查表
    if clean_name in mapping_rules:
        return mapping_rules[clean_name]
        
    # 3. 不相關的 building (如汽車銷售、維修、配件等) 回傳 None
    return None

# ================= 3. 應用與清洗 =================

# 應用函式
df['osm_tag'] = df['行业小类'].apply(get_osm_tag)

# ★ 關鍵步驟：幫您拿掉沒有關聯的 row (即 osm_tag 為 None 的資料)
df_clean = df.dropna(subset=['osm_tag']).copy()

# (可選) 檢查輸出結果
print("預覽 Fuel 與 Car Wash 類資料處理結果:")
print(df_clean[['name', '行业小类', 'osm_tag']].head(25))

# 如果您希望查看各類別的數量統計

預覽 Fuel 與 Car Wash 類資料處理結果:
                               name      行业小类           osm_tag
43                             展腾汽修  洗车场|汽车服务          car_wash
70         特来电汽车充电站(宜兴市竹海国际会议中心充电站)       充电站  charging_station
71           均悦充汽车充电站(无锡宜兴竹海国际会议中心)       充电站  charging_station
72        特来电汽车充电站(宜兴市竹海景区P1停车场充电站)       充电站  charging_station
77                    6+1·24h共享自助洗车       洗车场          car_wash
78                   6 1·24小时共享自助洗车       洗车场          car_wash
87                特来电充电站(宜兴世纪王朝大酒店)       充电站  charging_station
93   星星充电汽车充电站(美丽充-宜兴东氿万达广场快充站星星直营)       充电站  charging_station
96                特来电充电站(宜兴万达广场充电站)       充电站  charging_station
100                布布24小时自助洗车宜兴屺亭街道       洗车场          car_wash
101                        曼芙丽超级洗车站       洗车场          car_wash
103                  中化道达尔加油站(暂停营业)     中化道达尔              fuel
104                   中石化壳牌宜兴第二十加油站      中国石化              fuel
118    云快充汽车充电站(月海凰宸宜兴开元名都大酒店地面停车场)       充电站  charging_station
119         

In [44]:
output_file = 'mapped_data.csv'

# 檢查檔案是否存在
file_exists = os.path.exists(output_file)

df_clean.to_csv(
    output_file, 
    mode='a',                # 追加模式
    index=False, 
    header=not file_exists,  # 若檔案存在則不寫標題
    encoding='utf-8-sig'
)

print(f"成功追加 {len(df_clean)} 筆金融類資料到 {output_file}")

成功追加 360 筆金融類資料到 mapped_data.csv
